بهره‌گيري از بازنمايي گرافي در يادگيري تقويتي عميق براي بازي‌هاي متني

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1404/07/23

صفحه شمار

101 ص.

استاد راهنما

حسين كارشناس نجف آبادي , اميد روزمند

كليدواژه فارسي

يادگيري تقويتي عميق , پردازش زبان طبيعي , بازي‌هاي متني , حافظه‌ي ساختار يافته , بازنمايي گرافي پويا , مدل‌هاي زباني بزرگ , جستجوي ساختارمند

چكيده فارسي

پردازش زبان طبيعي در سال‌هاي اخير به‌عنوان شاخه‌اي كليدي در هوش مصنوعي، به‌ويژه با رشد مدل‌هاي زباني بزرگ و كاربردهاي گسترده در تحليل متون و استنتاج دانش، مورد توجه بسياري قرار گرفته است. درك و استنتاج زباني براي حل مسائل پيچيده و حفظ دانش بلندمدت از الزامات سامانه‌هاي هوشمند آينده در اين حوزه است؛ از اين‌رو، تلفيق دانش ساختاريافته با استدلال زباني اهميت ويژه‌اي يافته است. محيط‌ بازي‌هاي متني به‌واسطه‌ي چالش‌هايي از قبيل مشاهده‌ پذيري جزئي، گستردگي فضاي حالت و كنش، پراكندگي پاداش، معماهاي ناشناخته و متنوع و نياز به استدلال و حافظه‌ي بلندمدت، به‌عنوان بستري مناسب براي سنجش توانايي‌هاي اين سامانه‌ها محسوب مي‌شود. در چارچوب پيشنهاد شده، بازنمايي گرافي پويا به‌عنوان حافظه‌ي ساختاريافته براي غني‌سازي رهنمود مدل زباني بزرگ به‌كار گرفته مي‌شود؛ در هر گام موجوديت‌ها و روابط از متن مشاهده استخراج و به صورت تعبيه‌ي گرافي ذخيره شده و با تعامل عامل با محيط، به‌روزرساني مي‌گردند. سپس مدل‌ زباني بزرگ سياست اوليه‌اي جهت محدودسازي و اولويت‌بندي كنش‌ها ارائه مي‌كند كه در معيار PUCT در جستجوي درختي مونت‌كارلو، براي جستجوي ساختارمند و ايجاد توازن ميان كاوش و بهره‌برداري استفاده مي‌شود. پياده‌سازي و ارزيابي روش پيشنهاد شده در مجموعه‌اي از بازي‌هاي متني بستر Jericho انجام گرفته و نتايج كمّي نشان‌دهنده‌ي افزايش ميانگين پاداش نهايي در بيشتر محيط‌ها، كارايي نمونه‌اي و پايداري عملكرد عامل در مقايسه‌ با روش‌هاي پيشين بوده است. تحليل‌هاي كيفي بيشتري نيز در خصوص نقش اين بازنمايي گرافي و حفظ اطلاعات بلندمدت در بازي‌هاي مختلف ارائه شده است كه حاكي از تسهيل تصميم‌گيري‌هاي چندمرحله‌اي در اين روش مي‌باشد. از سويي ديگر محدوديت‌هايي چون وابستگي بيش از حد به اين دانش گرافي شناسايي گرديد، كه مي‌تواند عامل را در حل مسائل ساده‌تر و كوتاه‌مدت ناكارآمد سازد. نتايج اين پژوهش نشان مي‌دهد كه بهره‌گيري از بازنمايي گرافي در كنار مدل‌هاي زباني بزرگ در ساختار جستجوي درختي مونت‌كارلو، در صورت رعايت دقت و ملاحظات لازم مي‌تواند راهكاري مؤثر براي ارتقاي عملكرد عامل‌هاي هوشمند در محيط‌هاي متني، به‌ويژه بازي‌هاي متني فراهم آورد.

كليدواژه لاتين

Deep Reinforcement Learning , Natural Language Processing , Text-Based Games , Structured Memory , Dynamic Graph Representation , Large Language Models , Structured Search

عنوان لاتين

Utilizing Graph Representation in Deep Reinforcement Learning for Text-based Games

گروه آموزشي

مهندسي هوش مصنوعي

چكيده لاتين

In recent years, Natural Language Processing (NLP) has emerged as a pivotal branch of Artificial Intelligence, particularly with the advent of large language models (LLMs) an‎d their extensive applications in text analysis an‎d knowledge inference. For future intelligent systems, the ability to comprehend an‎d reason over language, as well as to retain long-term knowledge, is essential. Consequently, integrating structured knowledge with linguistic reasoning has gained significant importance. Text-based games, due to challenges such as partial observability, vast state an‎d action spaces, sparse rewards, diverse an‎d unknown puzzles, an‎d the necessity for reasoning an‎d long-term memory, provide a compelling testbed for eva‎luating such capabilities. This thesis proposes a novel framework that employs dynamic graph representations as structured memory to enhance the guidance provided by LLMs. At each interaction step, entities an‎d relations are extracted from textual observations, encoded into graph embeddings, an‎d updat‎ed through agent-environment interactions. The LLM then generates a prior policy to constrain an‎d prioritize actions, which is incorporated into a Monte Carlo Tree Search (MCTS) using the PUCT criterion to balance exploration an‎d exploitation in a structured manner. The proposed method is implemented an‎d eva‎luated on a suite of text-based games from the Jericho platform. Quantitative results demonstrate improvements in average final rewards, sample efficiency, an‎d agent performance stability compared to prior approaches. Furthermore, qualitative analyses highlight the role of graph-based memory in preserving long-term information an‎d facilitating multi-step decision-making. However, limitations such as over-reliance on graph knowledge—potentially hindering performance in simpler, short-horizon tasks—were also identified. Overall, the findings suggest that incorporating dynamic graph representations alongside LLMs within an MCTS framework, when applied with appropriate precision an‎d safeguards, can significantly enhance the performance of intelligent agents in text-based environments, particularly in complex interactive narratives.

تعداد فصل ها

استاد راهنماي خارج از دانشگاه

دكتر اميد روزمند از واحد آموزش عالي شهرضا مي‌باشد

فهرست مطالب pdf

149937

نويسنده

فتوحي عشين، كورش

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25319&Field=0&DTC=3