شماره ركورد
25923
شماره راهنما
COM2 720
عنوان
توليد پاسخ احساسي در سامانه مكالمه چند ماهيتي با استفاده از يادگيري عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
دانشكده
مهندسي كامپيوتر
تاريخ دفاع
1404/06/05
صفحه شمار
113 ص.
استاد راهنما
حميدرضا برادران كاشاني
كليدواژه فارسي
يادگيري عميق , يادگيري چند ماهيتي , توليد پاسخ احساسي , شبكه عصبي گراف
چكيده فارسي
سامانههاي مكالمه چند ماهيتي در حوزه فناوري تعامل انسان و ماشين به طور فزايندهاي در حال توسعه و استفاده هستند. اين سامانهها با تركيب اطلاعات ورودي از چند منبع (مانند متن، صوت و ويديو)، تلاش ميكنند تا تعاملات طبيعيتر و كارآمدتري را براي كاربران فراهم آورند. يكي از چالشهاي اساسي در طراحي و بهبود اين سامانهها، توليد پاسخ احساسي است كه بتواند تعاملات را معنادارتر كند. هدف اين پژوهش، طراحي و توسعه مدلي است كه بتواند ارتباط ميان افراد شركتكننده در يك مكالمه را درك كند و با تركيب اطلاعات نهفته در ماهيتهاي مختلف يك پاسخ مناسب توليد نمايد. پاسخ توليدشده بايد علاوه بر روان بودن از نظر معيارهاي زبان طبيعي، كاملا مرتبط با زمينه مكالمه باشد. علاوه بر اين مدل مورد نظر بايد با شناسايي احساسات گويندگان مكالمه از طريق پردازش متن، تحليل صوت و تحليل چهره، احساس مناسبي را در پاسخ توليدي بگنجاند تا اين پاسخ، انسانيتر به نظر برسد.
پژوهشهاي پيشين در زمينه تحليل احساسات و توليد پاسخ احساسي در مكالمه چند ماهيتي عمدتا بر پايه يادگيري عميق و به ويژه شبكههاي عصبي گراف بودهاند. گرافها علاوه بر توانايي بالا در استخراج روابط ميان گويههاي يك مكالمه، نقش مهمي را در پردازش و تركيب اطلاعات مكمل ماهيتهاي مختلف ايفا ميكنند. با اين حال در پژوهشهاي انجام شده در سالهاي اخير همچنان محدوديتهايي وجود دارد. يكي از اين محدوديتها عدم توجه به اطلاعات موجود در سطح ريزتري از مكالمه مانند كلمات، فريمهاي صوتي و فريمهاي چهره است، زيرا اين عناصر سرشار از اطلاعات لازم براي درك و كشف روابط حسي ميان گويندگان و اجزاء مكالمه هستند. چالش حلنشده ديگر در اين مسئله، تسلط يك ماهيت بر ديگر ماهيتها در فرآيند آموزش و عدم وجود يك مكانيزم تنظيمكننده ميزان يادگيري در ماهيتهاي مختلف است كه منجر به بازشناسي غلط احساسات و توليد پاسخهايي با كيفيت پايينتر ميشود.
در اين پژوهش مدلي پيشنهاد ميشود كه با يك رويكرد گرافي جديد، روابط ميان اجزاء مكالمه را در دو سطح گويه و زيرگويه (كلمات و فريمها) به طور موثري استخراج ميكند و با گردآوري اطلاعات غني از منابع مختلف، پاسخهايي با كيفيت بالا توليد ميكند. علاوه بر اين به منظور بهكارگيريِ ظرفيت همه ماهيتها و بهينهسازي تركيب اطلاعات مكمل آنها، يك تابع خطاي جلوگيري از عدم تسلط ماهيت ارائه ميشود. نتايج آزمايش مدل پيشنهادي روي مجموعه داده MELD نشان ميدهد كه اين مدل هم در بخش ارزيابي خودكار و هم در بخش ارزيابي انساني بسيار بهتر از پژوهشهاي پيشين حوزه توليد پاسخ چند ماهيتي عمل ميكند. همچنين بخش رمزگذار مدل پيشنهادي ميتواند در مسئله بازشناسي احساس در مكالمه چند ماهيتي به دقت قابل مقايسه با ديگر مدلهاي بازشناسي احساس برسد كه اين موضوع نمايانگر كارايي بالاي مدل پيشنهادي است.
كليدواژه لاتين
Deep Learning , Multimodal Learning , Emotional Response Generation , Graph Neural Network
عنوان لاتين
Emotional Response Generation in Multimodal Dialog Systems Using Deep Learning
گروه آموزشي
مهندسي هوش مصنوعي
چكيده لاتين
Multimodal conversational systems in the domain of human-machine interaction are being developed and utilized to provide more effective and efficient communica-tion. These systems integrate multiple input sources, such as text, audio, and video, in order to enable more natural and productive interactions. One of the main chal-lenges in designing and improving these systems is producing responses that are more adaptive and contextually appropriate. The aim of this research is to design a model capable of understanding the emotional and semantic state of participants in a conversation by integrating multimodal information sources. The system should produce responses not only based on the explicit content but also by analyzing con-textual and emotional cues throughout the dialogue. The response generation should consider the emotional state of the conversation participants and provide appropriate feedback grounded in the context of the conversation. Moreover, this model must recognize the speakers’ emotions through text analysis, voice modulation, and facial expression analysis, combining these elements to generate human-like and emotion-ally appropriate responses. In conversations where multiple emotions are expressed simultaneously, a deep understanding of the context and interaction dynamics is es-sential for accurate interpretation.
Prior research in the field of emotional analysis in multimodal dialogue systems has predominantly relied on deep learning techniques and graph-based structures to ex-tract relationships among participants. These methods have demonstrated high capa-bilities in interpreting conversational elements and integrating complementary data sources. However, despite advancements, limitations still persist. One of the most significant challenges is the lack of detailed information in conversations, particular-ly at a finer level of granularity, such as the semantic and facial cues necessary for accurate emotional recognition. Additionally, issues such as unbalanced emotional cues and the absence of a cohesive and adaptable response generation mechanism often lead to misinterpretation of emotions or the production of inappropriate re-sponses. The rate of learning in different modalities also varies significantly, which further complicates the creation of a unified system that accurately aligns emotional recognition with response generation. This variability often results in reduced system performance and lower-quality outputs.
In this research, a novel graph-based model is proposed to effectively extract rela-tionships between conversational components at two levels: utterance and sub-utterance (words and phrases). This model collects and aggregates rich information from diverse sources to generate high-quality responses. Additionally, to maximize the system’s capacity for understanding all modalities, it optimizes the integration of complementary multimodal data to prevent errors arising from insufficient domi-nance of one modality over others. The results of experiments conducted on the MELD dataset demonstrate that the proposed model performs significantly better than previous studies in both its evaluation of human-like responses and its ability to produce multimodal responses. Furthermore, the model outperforms other emotion recognition models in accurately detecting emotions within a multimodal conversa-tion. This suggests that the proposed model provides superior performance in ad-dressing the challenge of representational complexity in this domain.
تعداد فصل ها
6
فهرست مطالب pdf
160992
نويسنده