-
شماره ركورد
25064
-
شماره راهنما
COM3 145
-
نويسنده
عيسايي، ميترا
-
عنوان
استخراج روابط چندتايي ميان موجوديت¬ها از متون دامنه باز
-
مقطع تحصيلي
دكتري
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
تيرماه 1404
-
صفحه شمار
143 ص.
-
استاد راهنما
دكتر افسانه فاطمي , دكتر محمدعلي نعمت¬بخش
-
كليدواژه فارسي
استخراج روابط باز چندتايي , ، پردازش زبان طبيعي , اطلاعات ساختاريافته , ، موجوديت , رابطه
-
چكيده فارسي
در چند دهه¬ي اخير، حجم دادههاي موجود در وب رشد شديدي داشته است. بخش قابل توجهي از اين دادهها به صورت دادههاي غيرساختار¬يافته مانند اسناد وب هستند. با افزايش چشمگير دادههاي غيرساختار¬يافته، يكي از پرسشهاي كليدي اين است كه چگونه ماشينها ميتوانند اين دادهها را پردازش و استفاده كنند. استخراج روابط باز به دنبال كشف خودكار اطلاعات ساختاريافته و قابل خواندن توسط ماشين از متون زبان طبيعي در حوزههاي باز (بدون محدوديت موضوعي) است. اگرچه تلاشهاي بسياري در زمينهي استخراج روابط باز صورت گرفته و پيشرفتهاي قابل توجهي در سالهاي اخير حاصل شده-است، اما هم¬چنان مسائل زيادي وجود دارد و جاي بهبود فراواني در سيستمهاي موجود ديده ميشود. مطالعات پيشين به طور عمده بر استخراج روابط باز دوتايي در سطح جمله (استخراج روابط بين دو موجوديت در يك جمله) تمركز كردهاند. اين در حالي است كه در دنياي واقعي، روابط در قالب روابط چندتايي و در سطح متن (چند جمله) ظاهر ميشوند. رويكردهاي دودويي تكجملهاي اغلب باعث حذف اطلاعات مهم موجود در متن شده و مانع درك عميقتر محتوا ميشوند. براي مقابله با اين چالش¬ها، در اين پژوهش يك سيستم استخراج روابط باز چندتايي در سطح جمله و فراتر از جمله پيشنهاد شده¬است كه از دو تكنيك جديد «مكانيزم توجه چند سر رابطه» و «تعبيه¬ي رابطه» استفاده ميكند. مكانيزم توجه چند سر رابطه، در تركيب با تعبيه¬ي رابطه، به سيستم امكان ميدهد تا بر روي روابط استخراجشده توسط مدل SpanBERT تمركز كند و موجوديتهاي مرتبط با هر رابطه را به طور دقيق شناسايي نمايد. از ديگر نوآوريهاي مهم اين پژوهش، طراحي و ساخت مجموعهدادهي ParagOIE است كه شامل روابط چندتايي فراتر از جمله در متون دامنهباز ميباشد. اين مجموعهداده با هدف ارزيابي دقيق سيستمهاي استخراج رابطه در سطح پاراگراف تهيه و برچسبگذاري شده و بهعنوان يك مرجع جديد در اين حوزه معرفي شده است. نتايج آزمايشهاي گسترده بر روي مجموعهدادههاي معيار براي ارزيابي سيستمهاي استخراج روابط باز نشان ميدهند كه سيستم پيشنهادي نسبت به سيستمهاي پيشرفتهي حال حاضر، در معيارهاي دقت، فراخواني و F1 ، به ترتيب تا 10٪، 8٪ و 9٪ بهبود در استخراج روابط باز چندتايي حاصل كردهاست.
-
كليدواژه لاتين
N-ary Open Relation Extraction, , , Natural Language Processing, , Structured Information, , , Entity, , , , Relation
-
عنوان لاتين
Extracting N-ary Relations among Entities from Open Domain Text
-
گروه آموزشي
مهندسي نرم افزار
-
چكيده لاتين
In recent decades, the volume of web data has grown rapidly. A significant portion of this data exists in unstructured formats, such as web documents. With the sharp increase in unstructured data, a key question arises: how can machines effectively process and utilize such data? Open relation extraction aims to automatically extract structured, machine-readable information from natural language texts in open domains (without domain-specific restrictions). Although considerable progress has been made in open relation extraction, there are still many challenges, and existing systems leave much room for improvement. Most prior research has primarily focused on extracting binary relations within single sentences (i.e., relations between two entities in a sentence). However, in real-world scenarios, relations often appear in more complex forms—such as n-ary relations that span across multiple sentences. Sentence-level binary approaches tend to overlook important contextual information and hinder deeper content understanding. To address these challenges, this study proposes a novel system for n-ary open relation extraction at both the sentence and cross-sentence (paragraph) levels. The system leverages two key techniques: Relation-aware Multi-Head Attention and Relation Embedding. The combination of these components enables the system to focus on the relations extracted by SpanBERT and to accurately identify the entities associated with each relation. Another important contribution of this research is the development of a new dataset, ParagOIE, which contains cross-sentence, n-ary relations from open-domain texts. This dataset is specifically designed and annotated to support the precise evaluation of relation extraction systems at the paragraph level, and it is introduced as a new benchmark in this domain. Extensive experiments conducted on standard benchmark datasets demonstrate that the proposed system outperforms current state-of-the-art systems in n-ary open relation extraction, achieving improvements of up to 10% in precision, 8% in recall, and 9% in F1-score.
-
تعداد فصل ها
6
-
لينک به اين مدرک :