استخراج روابط چندتايي ميان موجوديت¬ها از متون دامنه باز

مقطع تحصيلي

دكتري

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

تيرماه 1404

صفحه شمار

143 ص.

استاد راهنما

دكتر افسانه فاطمي , دكتر محمدعلي نعمت¬بخش

كليدواژه فارسي

استخراج روابط باز چندتايي , ، پردازش زبان طبيعي , اطلاعات ساختاريافته , ، موجوديت , رابطه

چكيده فارسي

در چند دهه¬ي اخير، حجم داده‌هاي موجود در وب رشد شديدي داشته است. بخش قابل توجهي از اين داده‌ها به صورت داده‌هاي غيرساختار¬يافته مانند اسناد وب هستند. با افزايش چشم‌گير داده‌هاي غيرساختار¬يافته، يكي از پرسش‌هاي كليدي اين است كه چگونه ماشين‌ها مي‌توانند اين داده‌ها را پردازش و استفاده كنند. استخراج روابط باز به دنبال كشف خودكار اطلاعات ساختاريافته و قابل خواندن توسط ماشين از متون زبان طبيعي در حوزه‌هاي باز (بدون محدوديت موضوعي) است. اگرچه تلاش‌هاي بسياري در زمينه‌ي استخراج روابط باز صورت گرفته و پيشرفت‌هاي قابل توجهي در سال‌هاي اخير حاصل شده-است، اما هم¬چنان مسائل زيادي وجود دارد و جاي بهبود فراواني در سيستم‌هاي موجود ديده مي‌شود. مطالعات پيشين به طور عمده بر استخراج روابط باز دوتايي در سطح جمله (استخراج روابط بين دو موجوديت در يك جمله) تمركز كرده‌اند. اين در حالي است كه در دنياي واقعي، روابط در قالب روابط چندتايي و در سطح متن (چند جمله) ظاهر مي‌شوند. رويكردهاي دودويي تك‌جمله‌اي اغلب باعث حذف اطلاعات مهم موجود در متن شده و مانع درك عميق‌تر محتوا مي‌شوند. براي مقابله با اين چالش¬ها، در اين پژوهش يك سيستم استخراج روابط باز چندتايي در سطح جمله و فراتر از جمله پيشنهاد شده¬است كه از دو تكنيك جديد «مكانيزم توجه چند سر رابطه» و «تعبيه¬ي رابطه» استفاده مي‌كند. مكانيزم توجه چند سر رابطه، در تركيب با تعبيه¬ي رابطه، به سيستم امكان مي‌دهد تا بر روي روابط استخراج‌شده توسط مدل SpanBERT تمركز كند و موجوديت‌هاي مرتبط با هر رابطه را به طور دقيق شناسايي نمايد. از ديگر نوآوري‌هاي مهم اين پژوهش، طراحي و ساخت مجموعه‌داده‌ي ParagOIE است كه شامل روابط چندتايي فراتر از جمله در متون دامنه‌باز مي‌باشد. اين مجموعه‌داده با هدف ارزيابي دقيق سيستم‌هاي استخراج رابطه در سطح پاراگراف تهيه و برچسب‌گذاري شده و به‌عنوان يك مرجع جديد در اين حوزه معرفي شده است. نتايج آزمايش‌هاي گسترده بر روي مجموعه‌داده‌هاي معيار براي ارزيابي سيستم‌هاي استخراج روابط باز نشان مي‌دهند كه سيستم پيشنهادي نسبت به سيستم‌هاي پيشرفته‌ي حال حاضر، در معيارهاي دقت، فراخواني و F1 ، به ترتيب تا 10٪، 8٪ و 9٪ بهبود در استخراج روابط باز چندتايي حاصل كرده‌است.

كليدواژه لاتين

N-ary Open Relation Extraction, , , Natural Language Processing, , Structured Information, , , Entity, , , , Relation

عنوان لاتين

Extracting N-ary Relations among Entities from Open Domain Text

گروه آموزشي

مهندسي نرم افزار

چكيده لاتين

In recent decades, the volume of web data has grown rapidly. A significant portion of this data exists in unstructured formats, such as web documents. With the sharp increase in unstructured data, a key question arises: how can machines effectively process an‎d utilize such data? Open relation extraction aims to automatically extract structured, machine-readable information from natural language texts in open domains (without domain-specific restrictions). Although considerable progress has been made in open relation extraction, there are still many challenges, an‎d existing systems leave much room for improvement. Most prior research has primarily focused on extracting binary relations within single sentences (i.e., relations between two entities in a sentence). However, in real-world scenarios, relations often appear in more complex forms—such as n-ary relations that span across multiple sentences. Sentence-level binary approaches tend to overlook important contextual information an‎d hinder deeper content understan‎ding. To address these challenges, this study proposes a novel system for n-ary open relation extraction at both the sentence an‎d cross-sentence (paragraph) levels. The system leverages two key techniques: Relation-aware Multi-Head Attention an‎d Relation Embedding. The combination of these components enables the system to focus on the relations extracted by SpanBERT an‎d to accurately identify the entities associated with each relation. Another important contribution of this research is the development of a new dataset, ParagOIE, which contains cross-sentence, n-ary relations from open-domain texts. This dataset is specifically designed an‎d annotated to support the precise eva‎luation of relation extraction systems at the paragraph level, an‎d it is introduced as a new benchmark in this domain. Extensive experiments conducted on stan‎dard benchmark datasets demonstrate that the proposed system outperforms current state-of-the-art systems in n-ary open relation extraction, achieving improvements of up to 10% in precision, 8% in recall, an‎d 9% in F1-score.

تعداد فصل ها

فهرست مطالب pdf

146648

نويسنده

عيسايي، ميترا

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25064&Field=0&DTC=3