• شماره ركورد
    25803
  • شماره راهنما
    COM3 161
  • عنوان

    پرسش و پاسخ تصاوير نمودارهاي علمي به كمك مدل‌هاي گرافي

  • مقطع تحصيلي
    دكتري
  • رشته تحصيلي
    مهندسي كامپيوتر
  • دانشكده
    مهندسي كامپيوتر
  • تاريخ دفاع
    1404/11/21
  • صفحه شمار
    149 ص.
  • استاد راهنما
    پيمان اديبي
  • كليدواژه فارسي
    پرسش و پاسخ ديداري , واژگان خارج از دامنه , مدل‌هاي گرافي , مدل‌هاي زباني ديداري بزرگ , يادگيري بدون نمونه , ساز و كار كپي
  • چكيده فارسي
    پرسش و پاسخ تصاوير نمودارهاي علمي به عنوان يك زيرمجموعه از پرسش و پاسخ ديداري با هدف استخراج پاسخ‌هاي دقيق از نمودارها، گراف‌ها و ساير نمايش‌هاي داده‌اي، نيازمند درك عميق ديداري، استدلال منطقي و تفسير معنايي است. در حالي كه روش‌هاي پيشين پرسش و پاسخ ديداري و مدل‌هاي بزرگ زباني-ديداري در اين حوزه با چالش‌هايي نظير نياز به حجم بالاي داده براي آموزش، هزينه‌هاي محاسباتي بالا و آسيب‌پذيري در برابر مشكل واژگان خارج از دامنه مواجه بوده‌اند، اين رساله دكتري رويكردي جامع و نوآورانه را براي بهبود عملكرد سامانه‌هاي پرسش و پاسخ ارائه مي‌دهد. اين پژوهش بر بهره‌گيري از ساختار ذاتي نمودارها و روابط پيچيده بين مؤلفه‌هاي ديداري و اطلاعات متني براي پاسخ‌گويي به سوالات پيچيده تمركز دارد. ما يك مدل مبتني بر شبكه‌هاي عصبي گراف را پيشنهاد كرده‌ايم كه با استفاده از رمزگذاري‌هاي موقعيتي و ساختاري، روابط فضايي و توپولوژي نمودار را به طور مؤثر مدل‌سازي مي‌كند. اين رويكرد، درك مدل از داده‌هاي ديداري را افزايش داده و راه‌حلي كارآمد از نظر منابع سخت‌افزاري ارائه مي‌دهد. به منظور غلبه بر مشكل واژگان خارج از دامنه و بهبود تعميم‌پذيري به كلمات و مفاهيم ديده نشده (در يادگيري)، سازوكار يادگيري بدون نمونه و روشي مشابه سازوكار كپي براي توليد پاسخ مستقيم از متن درون تصوير به كار برده شده است. همچنين، براي افزايش مقاومت مدل در برابر سوالات پيچيده و كم‌نماينده، از استخراج نمونه‌هاي منفي دشوار استفاده شده است. در ادامه، يك مدل مبدل گراف چند ماهيتي نوين معرفي شده است كه با بهره‌گيري از يك معماري فشرده و مبدل گراف ناهمگن، به طور مؤثري روابط پيچيده بين عناصر نمودار و اطلاعات متني موجود در تصوير و سوال را مدل مي‌كند. اين رويكرد، ضمن كاهش نياز به داده‌هاي آموزشي وسيع و هزينه‌هاي محاسباتي بالا، عملكرد قابل توجهي را در پاسخ‌گويي به سؤالات نموداري با استدلال‌هاي منطقي و محاسباتي نشان مي‌دهد. آزمايش‌هاي گسترده روي مجموعه داده‌هاي عمومي FigureQA و DVQA و PlotQA نشان مي‌دهد كه روش‌هاي پيشنهادي، به ويژه در پاسخ گويي به سؤالات ساختاري از روش‌هاي ديگر پيشي گرفته و نتايج اميدبخش در معيارهاي ارزيابي ارائه مي‌دهند.
  • كليدواژه لاتين
    Chart Question Answering , Vision Language Model , out-of-vocabulary , Heterogeneous Graph Transformer , Copy Mechanism
  • عنوان لاتين
    Chart Question Answering with Graph Neural Networks
  • گروه آموزشي
    مهندسي كامپيوتر
  • چكيده لاتين
    Chart Question Answering requires a deep understan‎ding of data visualizations, encompassing visual perception, logical reasoning, an‎d semantic interpretation. While Large Vision Language Models currently dominate CQA, they suffer from limitations: data-intensive training, high computational costs, an‎d vulnerability to the out-of-vocabulary problem. This thesis works on the challenges in CQA an‎d introduces a multi-modal graph transformer model to address these challenges. Our model employs a compact architecture that effectively captures intricate relationships between chart elements an‎d textual information within the image an‎d question, addressing the limitations of data-intensive training an‎d high computational costs. Notably, the model incorporates a heterogeneous graph transformer with a novel positional encoding method. Recognizing that many CQA questions can be answered directly from the text within the image, the model integrates a method similar to copy mechanism to generate answers directly from the image text when applicable, mitigating the out-of-vocabulary problem.
  • تعداد فصل ها
    5
  • استاد راهنماي خارج از دانشگاه
    عليرضا درويشي
  • استاد مشاور خارج از دانشگاه
    سعيد احساني
  • فهرست مطالب pdf
    158555
  • نويسنده

    مزرعه فراهاني، علي