-
شماره ركورد
25319
-
شماره راهنما
COM2 697
-
نويسنده
فتوحي عشين، كورش
-
عنوان
بهرهگيري از بازنمايي گرافي در يادگيري تقويتي عميق براي بازيهاي متني
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
1404/07/23
-
صفحه شمار
101 ص.
-
استاد راهنما
حسين كارشناس نجف آبادي , اميد روزمند
-
كليدواژه فارسي
يادگيري تقويتي عميق , پردازش زبان طبيعي , بازيهاي متني , حافظهي ساختار يافته , بازنمايي گرافي پويا , مدلهاي زباني بزرگ , جستجوي ساختارمند
-
چكيده فارسي
پردازش زبان طبيعي در سالهاي اخير بهعنوان شاخهاي كليدي در هوش مصنوعي، بهويژه با رشد مدلهاي زباني بزرگ و كاربردهاي گسترده در تحليل متون و استنتاج دانش، مورد توجه بسياري قرار گرفته است. درك و استنتاج زباني براي حل مسائل پيچيده و حفظ دانش بلندمدت از الزامات سامانههاي هوشمند آينده در اين حوزه است؛ از اينرو، تلفيق دانش ساختاريافته با استدلال زباني اهميت ويژهاي يافته است. محيط بازيهاي متني بهواسطهي چالشهايي از قبيل مشاهده پذيري جزئي، گستردگي فضاي حالت و كنش، پراكندگي پاداش، معماهاي ناشناخته و متنوع و نياز به استدلال و حافظهي بلندمدت، بهعنوان بستري مناسب براي سنجش تواناييهاي اين سامانهها محسوب ميشود. در چارچوب پيشنهاد شده، بازنمايي گرافي پويا بهعنوان حافظهي ساختاريافته براي غنيسازي رهنمود مدل زباني بزرگ بهكار گرفته ميشود؛ در هر گام موجوديتها و روابط از متن مشاهده استخراج و به صورت تعبيهي گرافي ذخيره شده و با تعامل عامل با محيط، بهروزرساني ميگردند. سپس مدل زباني بزرگ سياست اوليهاي جهت محدودسازي و اولويتبندي كنشها ارائه ميكند كه در معيار PUCT در جستجوي درختي مونتكارلو، براي جستجوي ساختارمند و ايجاد توازن ميان كاوش و بهرهبرداري استفاده ميشود. پيادهسازي و ارزيابي روش پيشنهاد شده در مجموعهاي از بازيهاي متني بستر Jericho انجام گرفته و نتايج كمّي نشاندهندهي افزايش ميانگين پاداش نهايي در بيشتر محيطها، كارايي نمونهاي و پايداري عملكرد عامل در مقايسه با روشهاي پيشين بوده است. تحليلهاي كيفي بيشتري نيز در خصوص نقش اين بازنمايي گرافي و حفظ اطلاعات بلندمدت در بازيهاي مختلف ارائه شده است كه حاكي از تسهيل تصميمگيريهاي چندمرحلهاي در اين روش ميباشد. از سويي ديگر محدوديتهايي چون وابستگي بيش از حد به اين دانش گرافي شناسايي گرديد، كه ميتواند عامل را در حل مسائل سادهتر و كوتاهمدت ناكارآمد سازد. نتايج اين پژوهش نشان ميدهد كه بهرهگيري از بازنمايي گرافي در كنار مدلهاي زباني بزرگ در ساختار جستجوي درختي مونتكارلو، در صورت رعايت دقت و ملاحظات لازم ميتواند راهكاري مؤثر براي ارتقاي عملكرد عاملهاي هوشمند در محيطهاي متني، بهويژه بازيهاي متني فراهم آورد.
-
كليدواژه لاتين
Deep Reinforcement Learning , Natural Language Processing , Text-Based Games , Structured Memory , Dynamic Graph Representation , Large Language Models , Structured Search
-
عنوان لاتين
Utilizing Graph Representation in Deep Reinforcement Learning for Text-based Games
-
گروه آموزشي
مهندسي هوش مصنوعي
-
چكيده لاتين
In recent years, Natural Language Processing (NLP) has emerged as a pivotal branch of Artificial Intelligence, particularly with the advent of large language models (LLMs) and their extensive applications in text analysis and knowledge inference. For future intelligent systems, the ability to comprehend and reason over language, as well as to retain long-term knowledge, is essential. Consequently, integrating structured knowledge with linguistic reasoning has gained significant importance. Text-based games, due to challenges such as partial observability, vast state and action spaces, sparse rewards, diverse and unknown puzzles, and the necessity for reasoning and long-term memory, provide a compelling testbed for evaluating such capabilities.
This thesis proposes a novel framework that employs dynamic graph representations as structured memory to enhance the guidance provided by LLMs. At each interaction step, entities and relations are extracted from textual observations, encoded into graph embeddings, and updated through agent-environment interactions. The LLM then generates a prior policy to constrain and prioritize actions, which is incorporated into a Monte Carlo Tree Search (MCTS) using the PUCT criterion to balance exploration and exploitation in a structured manner.
The proposed method is implemented and evaluated on a suite of text-based games from the Jericho platform. Quantitative results demonstrate improvements in average final rewards, sample efficiency, and agent performance stability compared to prior approaches. Furthermore, qualitative analyses highlight the role of graph-based memory in preserving long-term information and facilitating multi-step decision-making. However, limitations such as over-reliance on graph knowledge—potentially hindering performance in simpler, short-horizon tasks—were also identified.
Overall, the findings suggest that incorporating dynamic graph representations alongside LLMs within an MCTS framework, when applied with appropriate precision and safeguards, can significantly enhance the performance of intelligent agents in text-based environments, particularly in complex interactive narratives.
-
تعداد فصل ها
6
-
استاد راهنماي خارج از دانشگاه
دكتر اميد روزمند از واحد آموزش عالي شهرضا ميباشد
-
فهرست مطالب pdf
149937
-
لينک به اين مدرک :