پرسش و پاسخ تصاوير نمودارهاي علمي به كمك مدل‌هاي گرافي

مقطع تحصيلي

دكتري

رشته تحصيلي

مهندسي كامپيوتر

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1404/11/21

صفحه شمار

149 ص.

استاد راهنما

پيمان اديبي

كليدواژه فارسي

پرسش و پاسخ ديداري , واژگان خارج از دامنه , مدل‌هاي گرافي , مدل‌هاي زباني ديداري بزرگ , يادگيري بدون نمونه , ساز و كار كپي

چكيده فارسي

پرسش و پاسخ تصاوير نمودارهاي علمي به عنوان يك زيرمجموعه از پرسش و پاسخ ديداري با هدف استخراج پاسخ‌هاي دقيق از نمودارها، گراف‌ها و ساير نمايش‌هاي داده‌اي، نيازمند درك عميق ديداري، استدلال منطقي و تفسير معنايي است. در حالي كه روش‌هاي پيشين پرسش و پاسخ ديداري و مدل‌هاي بزرگ زباني-ديداري در اين حوزه با چالش‌هايي نظير نياز به حجم بالاي داده براي آموزش، هزينه‌هاي محاسباتي بالا و آسيب‌پذيري در برابر مشكل واژگان خارج از دامنه مواجه بوده‌اند، اين رساله دكتري رويكردي جامع و نوآورانه را براي بهبود عملكرد سامانه‌هاي پرسش و پاسخ ارائه مي‌دهد. اين پژوهش بر بهره‌گيري از ساختار ذاتي نمودارها و روابط پيچيده بين مؤلفه‌هاي ديداري و اطلاعات متني براي پاسخ‌گويي به سوالات پيچيده تمركز دارد. ما يك مدل مبتني بر شبكه‌هاي عصبي گراف را پيشنهاد كرده‌ايم كه با استفاده از رمزگذاري‌هاي موقعيتي و ساختاري، روابط فضايي و توپولوژي نمودار را به طور مؤثر مدل‌سازي مي‌كند. اين رويكرد، درك مدل از داده‌هاي ديداري را افزايش داده و راه‌حلي كارآمد از نظر منابع سخت‌افزاري ارائه مي‌دهد. به منظور غلبه بر مشكل واژگان خارج از دامنه و بهبود تعميم‌پذيري به كلمات و مفاهيم ديده نشده (در يادگيري)، سازوكار يادگيري بدون نمونه و روشي مشابه سازوكار كپي براي توليد پاسخ مستقيم از متن درون تصوير به كار برده شده است. همچنين، براي افزايش مقاومت مدل در برابر سوالات پيچيده و كم‌نماينده، از استخراج نمونه‌هاي منفي دشوار استفاده شده است. در ادامه، يك مدل مبدل گراف چند ماهيتي نوين معرفي شده است كه با بهره‌گيري از يك معماري فشرده و مبدل گراف ناهمگن، به طور مؤثري روابط پيچيده بين عناصر نمودار و اطلاعات متني موجود در تصوير و سوال را مدل مي‌كند. اين رويكرد، ضمن كاهش نياز به داده‌هاي آموزشي وسيع و هزينه‌هاي محاسباتي بالا، عملكرد قابل توجهي را در پاسخ‌گويي به سؤالات نموداري با استدلال‌هاي منطقي و محاسباتي نشان مي‌دهد. آزمايش‌هاي گسترده روي مجموعه داده‌هاي عمومي FigureQA و DVQA و PlotQA نشان مي‌دهد كه روش‌هاي پيشنهادي، به ويژه در پاسخ گويي به سؤالات ساختاري از روش‌هاي ديگر پيشي گرفته و نتايج اميدبخش در معيارهاي ارزيابي ارائه مي‌دهند.

كليدواژه لاتين

Chart Question Answering , Vision Language Model , out-of-vocabulary , Heterogeneous Graph Transformer , Copy Mechanism

عنوان لاتين

Chart Question Answering with Graph Neural Networks

گروه آموزشي

مهندسي كامپيوتر

چكيده لاتين

Chart Question Answering requires a deep understan‎ding of data visualizations, encompassing visual perception, logical reasoning, an‎d semantic interpretation. While Large Vision Language Models currently dominate CQA, they suffer from limitations: data-intensive training, high computational costs, an‎d vulnerability to the out-of-vocabulary problem. This thesis works on the challenges in CQA an‎d introduces a multi-modal graph transformer model to address these challenges. Our model employs a compact architecture that effectively captures intricate relationships between chart elements an‎d textual information within the image an‎d question, addressing the limitations of data-intensive training an‎d high computational costs. Notably, the model incorporates a heterogeneous graph transformer with a novel positional encoding method. Recognizing that many CQA questions can be answered directly from the text within the image, the model integrates a method similar to copy mechanism to generate answers directly from the image text when applicable, mitigating the out-of-vocabulary problem.

تعداد فصل ها

استاد راهنماي خارج از دانشگاه

عليرضا درويشي

استاد مشاور خارج از دانشگاه

سعيد احساني

فهرست مطالب pdf

158555

نويسنده

مزرعه فراهاني، علي

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25803&Field=0&DTC=3