-
شماره ركورد
23715
-
شماره راهنما
COM3 123
-
نويسنده
شاهيني شمس ابادي، عباس
-
عنوان
پاسخدهي به سوالهاي فارسي با استفاده از دادههاي پيوندي
-
مقطع تحصيلي
دكتري
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
1402/04/26
-
صفحه شمار
118 ص.
-
استاد راهنما
محمدعلي نعمت بخش , رضا رمضاني
-
استاد مشاور
هادي خسروي
-
كليدواژه فارسي
پرسش-پاسخ , تشخيص رابطه , پيوند نهاد , پايگاه دانش , پردازش زبان طبيعي
-
چكيده فارسي
چالش سيستمهاي پرسش-پاسخ فارسي مبتني بر پايگاه دانش، كمبود دادههاي ساختارمند براي زبان فارسي ميباشد. در اين رساله، براي مساله پاسخ به سوال¬هاي فارسي با استفاده از پايگاه دانش انگليسي، زير مساله تشخيص رابطه براي سوال¬هاي تك رابطه¬اي به تفصيل بررسي شده است. در اين نوع از سوالها، پاسخ از يك سه¬تايي به شكل < فاعل، گزاره¬نما، مفعول> استخراج مي¬شود. براي انجام اين كار دو مرحله اصلي وجود دارد، اولي پيوند نهاد و دومي تشخيص رابطه است. در مرحله اول نهاد شناسايي شده در سوال به يك فاعل يا مفعول از يك سهتايي نگاشت شده و در مرحله دوم يك گزارهنما كه نشان دهنده رابطه معنايي موجود در سوال است مشخص ميشود. در اكثر روشهاي قبلي پس از مشخص شدن نهاد، همه رابطههايي كه براي آن در پايگاه دانش وجود دارد، به عنوان رابطههاي نامزد در مرحله تشخيص رابطه در نظر گرفته شده و بهترين آنها انتخاب ميشود. در روش پيشنهادي اين تحقيق، مرحله تشخيص رابطه، مستقل از پيوند نهاد انجام شده و از ساختار سلسله مراتبي رابطههاي پايگاه دانش براي استخراج مستقيم رابطهها بهره گرفته ميشود. رابطه يك سوال در سه مرحله به وسيله سه شبكه عصبي BiGRU استخراج مي¬شود. براي ايجاد ورودي¬هاي شبكههاي عصبي، سوالها به روش وان¬هات در سطح حروف كدگذاري مي¬شوند. براي افزايش دقت و پرهيز از نياز به مجموعه دادههاي آموزشي خيلي بزرگ، بعد از هر كلمه برچسب POS نظير آن اضافه مي¬شود. آزمايشها نشان مي¬دهد كه دقت روش پيشنهادي براي تشخيص مستقيم رابطهها %5/89 است. علاوه بر اين دقت روش پيشنهادي براي تشخيص غيرمستقيم رابطهها %3/96 است كه از همه روش¬هاي پيشرفته بالاتر ميباشد. براي زبان فارسي دقت¬هاي تشخيص مستقيم و غيرمستقيم به ترتيب %72 و %90 مي¬باشد. همچنين در آزمايشها مختلف، تاثير استفاده از برچسب¬هاي POS بررسي شده است. در اين پژوهش از مجموعه داده SimpleQuestions كه شامل سوالهاي زبان انگليسي است، براي انجام آزمايشها استفاده شده است. به منظور ارزيابي روش پيشنهادي براي زبان فارسي، اين مجموعه داده به روشي موثر با استفاده از مترجم گوگل به زبان فارسي ترجمه شده است. يك سيستم براي پاسخ به سوال¬هاي فارسي با پايگاه دانش ويكي¬ديتا پيشنهاد شده است كه براي پيوند نهاد از تركيب سه روش مستقل و براي تشخيص رابطه از تركيب دو روش مستقيم و غيرمستقيم بهره مي¬گيرد.
-
كليدواژه لاتين
Question answering , Relation detection , Entity linking , Knowledge base , Natural language processing
-
عنوان لاتين
Answering Persian Questions Using Linked Data
-
گروه آموزشي
مهندسي نرم افزار
-
چكيده لاتين
The challenge of Persian knowledge based question answering systems is the insufficiency of structured data for the Persian language. In this thesis, for the problem of answering Persian questions using an English knowledge base, the sub-problem of relation detection for single relation questions has been examined in detail. In this kind of questions, the answer is obtained from a single KB fact in the form of subject-predicate-object. Conventional fact extraction methods have two steps: entity linking and relation detection. In the first step, the entity identified in the question is mapped to a subject or object of a triple, and in the second step, a predicate that shows the semantic relation in the question is identified. In most of the previous methods, after the entity is identified, all the relations that exist for it in the knowledge base are considered as candidate relations and the best one is selected. This study explored relation detection task without entity-linking step utilizing the hierarchical structure of relations.
The relation of a question is detected in three steps by three BiGRU neural networks. For the input of these networks, one-hot encoding is used at the character level. Besides, to increase the accuracy of the proposed model and to avoid the need for large amounts of training data, after each word of the question, its POS tag is inserted before feeding the network. The experimental results show that the accuracy of the proposed solution for the direct relation detection is 89.5%. In addition, the proposed solution can be used for the indirect relation detection whose accuracy is 96.3%, which is higher than state-of-the-art relation detection techniques. For Persian language, direct and indirect detection accuracies are 72% and 90%, respectively. In addition, the positive effects of using POS labels have been investigated. In this research, the SimpleQuestions dataset has been used, which includes English language questions. To evaluate the proposed method for Persian language, this dataset was effectively translated into Persian language using Google translator.
Finally, a system for answering Persian questions with Wikidata knowledge base is proposed, which uses the combination of three independent methods for entity linking and a combination of two direct and indirect methods for relation detection.
-
تعداد فصل ها
5
-
لينک به اين مدرک :