شماره ركورد
25803
شماره راهنما
COM3 161
عنوان
پرسش و پاسخ تصاوير نمودارهاي علمي به كمك مدلهاي گرافي
مقطع تحصيلي
دكتري
رشته تحصيلي
مهندسي كامپيوتر
دانشكده
مهندسي كامپيوتر
تاريخ دفاع
1404/11/21
صفحه شمار
149 ص.
استاد راهنما
پيمان اديبي
كليدواژه فارسي
پرسش و پاسخ ديداري , واژگان خارج از دامنه , مدلهاي گرافي , مدلهاي زباني ديداري بزرگ , يادگيري بدون نمونه , ساز و كار كپي
چكيده فارسي
پرسش و پاسخ تصاوير نمودارهاي علمي به عنوان يك زيرمجموعه از پرسش و پاسخ ديداري با هدف استخراج پاسخهاي دقيق از نمودارها، گرافها و ساير نمايشهاي دادهاي، نيازمند درك عميق ديداري، استدلال منطقي و تفسير معنايي است. در حالي كه روشهاي پيشين پرسش و پاسخ ديداري و مدلهاي بزرگ زباني-ديداري در اين حوزه با چالشهايي نظير نياز به حجم بالاي داده براي آموزش، هزينههاي محاسباتي بالا و آسيبپذيري در برابر مشكل واژگان خارج از دامنه مواجه بودهاند، اين رساله دكتري رويكردي جامع و نوآورانه را براي بهبود عملكرد سامانههاي پرسش و پاسخ ارائه ميدهد. اين پژوهش بر بهرهگيري از ساختار ذاتي نمودارها و روابط پيچيده بين مؤلفههاي ديداري و اطلاعات متني براي پاسخگويي به سوالات پيچيده تمركز دارد. ما يك مدل مبتني بر شبكههاي عصبي گراف را پيشنهاد كردهايم كه با استفاده از رمزگذاريهاي موقعيتي و ساختاري، روابط فضايي و توپولوژي نمودار را به طور مؤثر مدلسازي ميكند. اين رويكرد، درك مدل از دادههاي ديداري را افزايش داده و راهحلي كارآمد از نظر منابع سختافزاري ارائه ميدهد. به منظور غلبه بر مشكل واژگان خارج از دامنه و بهبود تعميمپذيري به كلمات و مفاهيم ديده نشده (در يادگيري)، سازوكار يادگيري بدون نمونه و روشي مشابه سازوكار كپي براي توليد پاسخ مستقيم از متن درون تصوير به كار برده شده است. همچنين، براي افزايش مقاومت مدل در برابر سوالات پيچيده و كمنماينده، از استخراج نمونههاي منفي دشوار استفاده شده است. در ادامه، يك مدل مبدل گراف چند ماهيتي نوين معرفي شده است كه با بهرهگيري از يك معماري فشرده و مبدل گراف ناهمگن، به طور مؤثري روابط پيچيده بين عناصر نمودار و اطلاعات متني موجود در تصوير و سوال را مدل ميكند. اين رويكرد، ضمن كاهش نياز به دادههاي آموزشي وسيع و هزينههاي محاسباتي بالا، عملكرد قابل توجهي را در پاسخگويي به سؤالات نموداري با استدلالهاي منطقي و محاسباتي نشان ميدهد. آزمايشهاي گسترده روي مجموعه دادههاي عمومي FigureQA و DVQA و PlotQA نشان ميدهد كه روشهاي پيشنهادي، به ويژه در پاسخ گويي به سؤالات ساختاري از روشهاي ديگر پيشي گرفته و نتايج اميدبخش در معيارهاي ارزيابي ارائه ميدهند.
كليدواژه لاتين
Chart Question Answering , Vision Language Model , out-of-vocabulary , Heterogeneous Graph Transformer , Copy Mechanism
عنوان لاتين
Chart Question Answering with Graph Neural Networks
گروه آموزشي
مهندسي كامپيوتر
چكيده لاتين
Chart Question Answering requires a deep understanding of data visualizations, encompassing visual perception, logical reasoning, and semantic interpretation. While Large Vision Language Models currently dominate CQA, they suffer from limitations: data-intensive training, high computational costs, and vulnerability to the out-of-vocabulary problem. This thesis works on the challenges in CQA and introduces a multi-modal graph transformer model to address these challenges. Our model employs a compact architecture that effectively captures intricate relationships between chart elements and textual information within the image and question, addressing the limitations of data-intensive training and high computational costs. Notably, the model incorporates a heterogeneous graph transformer with a novel positional encoding method. Recognizing that many CQA questions can be answered directly from the text within the image, the model integrates a method similar to copy mechanism to generate answers directly from the image text when applicable, mitigating the out-of-vocabulary problem.
تعداد فصل ها
5
استاد راهنماي خارج از دانشگاه
عليرضا درويشي
استاد مشاور خارج از دانشگاه
سعيد احساني
فهرست مطالب pdf
158555
نويسنده