يك سيستم بازيابي اطلاعات خود نظارتي در زبان فارسي با استفاده از روش¬هاي يادگيري عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1403/04/24

صفحه شمار

91 ص.

استاد راهنما

محمدعلي نعمت بخش , زهرا زجاجي

كليدواژه فارسي

پردازش زبان طبيعي , بازيابي اطلاعات , بازيابي كننده‌هاي متراكم , رويكردهاي يادگيري خود نظارتي , داده‌افزايي

چكيده فارسي

با پيشرفت تكنولوژي و افزايش محبوبيت و دسترسي به شبكه جهاني اينترنت، حجم اسناد و اطلاعات در دسترس كاربران روز به روز در حال افزايش است و نياز به وجود سيستم‌هايي براي بازيابي اطلاعات مرتبط با نياز اطلاعاتي كاربران بيش از پيش احساس مي‌شود. سيستم‌هاي بازيابي اطلاعات تُنُك از اولين سيستم‌هاي مطرح شده هستند و شامل روش‌هاي رتبه‌بندي مانند BM25 مي‌باشند. در اين سيستم‌ها، بازيابي براساس تطبيق ظاهري كلمات پرسه و سند انجام مي‌دهند. اين سيستم‌ها با مشكل شكاف واژگاني روبه‌رو خواهند بود و منجر به افت كارايي سيستم‌هاي بازيابي اطلاعات مي‌شوند. با روي كار آمدن شبكه‌هاي عصبي و رويكردهاي يادگيري عميق، سيستم‌هاي بازيابي اطلاعات متراكم مطرح شدند. از پركاربردترين الگوريتم‌ها در سيستم‌هاي بازيابي اطلاعات متراكم مي‌توان به رويكرد يادگيري بانظارت اشاره كرد كه براي آموزش به حجم قابل قبولي از داده‌هاي آموزشي برچسب‌دار نياز دارد. هدف از اين پژوهش، ارائه يك سيستم بازيابي اطلاعات متراكم بدون نظارت براي زبان‌ها و زمينه‌هاي اطلاعاتي كم‌منبع مي‌باشد. در اين راستا، از مدل زباني بِرت به عنوان يك مدل زباني از پيش آموزش ديده استفاده شده است. سپس براي تنظيم دقيق اين مدل زباني براي ايجاد يك سيستم بازيابي اطلاعات، از رويكردي با عنوان داده‌افزايي انتخابي (SDA) براي غلبه بر محدوديت دسترسي به مجموعه داده برچسب‌گذاري شده استفاده مي‌شود. بر اين اساس نمونه‌هاي برچسب‌دار جديدي براي مجموعه داده بازيابي توليد مي‌گردد. رويكرد پيشنهادي مذكور پس از تنظيم دقيق مدل بازيابي، يك ارزيابي اوليه انجام داده و سپس نمونه‌هاي موجود در مجموعه داده آموزشي را كه مدل بازيابي متراكم ضعف بيشتري روي آن داشته است گسترش مي‌دهد كه در مراحل بعدي، تنظيم دقيق روي داده‌هاي جديد موجب افزايش كارايي مدل مي‌شود. براي توليد نمونه‌هاي جديد، با روش‌ خلاصه‌سازي انتزاعي، پرسه‌هاي جديد از اسناد موجود بدست مي‌آيد. راهكار پيشنهادي بر روي مجموعه داده PersianQuAD در زبان فارسي تنظيم دقيق شده و در معيارهايي از جمله معيار بازخواني و ميانگين رتبه متقابل با مدل زباني پايه مقايسه شده است و نتايج حاصل از اين راهكار پيشنهادي در سه سند نخست بازيابي شده به ترتيب با 9.8% و 5.067% بهبود نسبت به حالت اوليه دست يافته است. سپس براي بررسي راهكار پيشنهادي در زباني غير از زبان فارسي از مجموعه داده Ms-Marco در زبان انگليسي استفاده شده است و با تنظيم دقيق مدل پيشنهادي با اين مجموعه داده در معيارهاي بازخواني و ميانگين رتبه متقابل با 5.61% و 3.31% بهبود نسبت به حالت پايه و اوليه دست يافته كه نشان دهنده كارايي و بهبود راهكار پيشنهادي به صورت مستقل از زبان مي‌باشد.

كليدواژه لاتين

Natural Language Processing , Information Retrieva‎l , Dense Retrievers , Self Supervised Learning , Data Augmentation

عنوان لاتين

A Self-Supervised Information Retrieva‎l System for Persian Language using Deep Learning

گروه آموزشي

مهندسي نرم افزار

چكيده لاتين

With the advancement of technology and the increasing popularity and accessibility of the World Wide Web, the volume of documents and information available to users is growing day by day. This necessitates the development of systems to retrieve information relevant to usersʹ needs. Traditional information retrieva‎l systems like BM25 are basic methods that perform retrieva‎l based on the apparent matching of query and document terms. These systems face the problem of lexical gaps, leading to a decline in the performance of information retrieva‎l systems. With the advent of neural networks and deep learning approaches, dense information retrieva‎l systems have emerged. One of the most commonly used algorithms in dense information retrieva‎l systems is supervised learning, which requires a significant amount of labeled training data. Accessing such datasets is challenging in low-resource languages and information domains, such as Persian. The aim of this research is to present an unsupervised dense information retrieva‎l system for low-resource languages and information domains. To this end, the BERT language model, a pre-trained language model, has been utilized. Then, to fine-tune this language model for creating an information retrieva‎l system, a selective Data Augmentation (SDA) approach is used to overcome the limitations of accessing labeled datasets. Based on this approach, new labeled samples are generated for the retrieva‎l dataset. After fine-tuning the retrieva‎l model, the proposed approach conducts an initial eva‎luation and then expands the samples in the training dataset where the dense retrieva‎l model shows more weaknesses, which in subsequent stages, fine-tuning on the new data improves the modelʹs performance. For generating new samples, new queries are derived from existing documents using abstractive summarization methods. The proposed solution is fine-tuned on the PersianQuAD dataset in Persian and compared with the base language model in metrics such as recall and Mean Reciprocal Rank (MRR). The results of the proposed solution show an improvement of 9.8% and 5.067% in the top three retrieved documents, respectively, compared to the initial state. Then, to eva‎luate the proposed solution in a language other than Persian, the Ms-Marco dataset in English is used. By fine-tuning the proposed model with this dataset, an improvement of 5.61 and 3.31 in recall and MRR metrics is achieved compared to the base and initial state, indicating the effectiveness and improvement of the proposed solution regardless of the language.

تعداد فصل ها

فهرست مطالب pdf

34628

نويسنده

لطيفي علويجه، پريسا

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=23762&Field=0&DTC=3