-
شماره ركورد
23762
-
شماره راهنما
COM2 652
-
نويسنده
لطيفي علويجه، پريسا
-
عنوان
يك سيستم بازيابي اطلاعات خود نظارتي در زبان فارسي با استفاده از روش¬هاي يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
1403/04/24
-
صفحه شمار
91 ص.
-
استاد راهنما
محمدعلي نعمت بخش , زهرا زجاجي
-
كليدواژه فارسي
پردازش زبان طبيعي , بازيابي اطلاعات , بازيابي كنندههاي متراكم , رويكردهاي يادگيري خود نظارتي , دادهافزايي
-
چكيده فارسي
با پيشرفت تكنولوژي و افزايش محبوبيت و دسترسي به شبكه جهاني اينترنت، حجم اسناد و اطلاعات در دسترس كاربران روز به روز در حال افزايش است و نياز به وجود سيستمهايي براي بازيابي اطلاعات مرتبط با نياز اطلاعاتي كاربران بيش از پيش احساس ميشود. سيستمهاي بازيابي اطلاعات تُنُك از اولين سيستمهاي مطرح شده هستند و شامل روشهاي رتبهبندي مانند BM25 ميباشند. در اين سيستمها، بازيابي براساس تطبيق ظاهري كلمات پرسه و سند انجام ميدهند. اين سيستمها با مشكل شكاف واژگاني روبهرو خواهند بود و منجر به افت كارايي سيستمهاي بازيابي اطلاعات ميشوند. با روي كار آمدن شبكههاي عصبي و رويكردهاي يادگيري عميق، سيستمهاي بازيابي اطلاعات متراكم مطرح شدند. از پركاربردترين الگوريتمها در سيستمهاي بازيابي اطلاعات متراكم ميتوان به رويكرد يادگيري بانظارت اشاره كرد كه براي آموزش به حجم قابل قبولي از دادههاي آموزشي برچسبدار نياز دارد. هدف از اين پژوهش، ارائه يك سيستم بازيابي اطلاعات متراكم بدون نظارت براي زبانها و زمينههاي اطلاعاتي كممنبع ميباشد. در اين راستا، از مدل زباني بِرت به عنوان يك مدل زباني از پيش آموزش ديده استفاده شده است. سپس براي تنظيم دقيق اين مدل زباني براي ايجاد يك سيستم بازيابي اطلاعات، از رويكردي با عنوان دادهافزايي انتخابي (SDA) براي غلبه بر محدوديت دسترسي به مجموعه داده برچسبگذاري شده استفاده ميشود. بر اين اساس نمونههاي برچسبدار جديدي براي مجموعه داده بازيابي توليد ميگردد. رويكرد پيشنهادي مذكور پس از تنظيم دقيق مدل بازيابي، يك ارزيابي اوليه انجام داده و سپس نمونههاي موجود در مجموعه داده آموزشي را كه مدل بازيابي متراكم ضعف بيشتري روي آن داشته است گسترش ميدهد كه در مراحل بعدي، تنظيم دقيق روي دادههاي جديد موجب افزايش كارايي مدل ميشود. براي توليد نمونههاي جديد، با روش خلاصهسازي انتزاعي، پرسههاي جديد از اسناد موجود بدست ميآيد. راهكار پيشنهادي بر روي مجموعه داده PersianQuAD در زبان فارسي تنظيم دقيق شده و در معيارهايي از جمله معيار بازخواني و ميانگين رتبه متقابل با مدل زباني پايه مقايسه شده است و نتايج حاصل از اين راهكار پيشنهادي در سه سند نخست بازيابي شده به ترتيب با 9.8% و 5.067% بهبود نسبت به حالت اوليه دست يافته است. سپس براي بررسي راهكار پيشنهادي در زباني غير از زبان فارسي از مجموعه داده Ms-Marco در زبان انگليسي استفاده شده است و با تنظيم دقيق مدل پيشنهادي با اين مجموعه داده در معيارهاي بازخواني و ميانگين رتبه متقابل با 5.61% و 3.31% بهبود نسبت به حالت پايه و اوليه دست يافته كه نشان دهنده كارايي و بهبود راهكار پيشنهادي به صورت مستقل از زبان ميباشد.
-
كليدواژه لاتين
Natural Language Processing , Information Retrieval , Dense Retrievers , Self Supervised Learning , Data Augmentation
-
عنوان لاتين
A Self-Supervised Information Retrieval System for Persian Language using Deep Learning
-
گروه آموزشي
مهندسي نرم افزار
-
چكيده لاتين
With the advancement of technology and the increasing popularity and accessibility of the World Wide Web, the volume of documents and information available to users is growing day by day. This necessitates the development of systems to retrieve information relevant to usersʹ needs. Traditional information retrieval systems like BM25 are basic methods that perform retrieval based on the apparent matching of query and document terms. These systems face the problem of lexical gaps, leading to a decline in the performance of information retrieval systems. With the advent of neural networks and deep learning approaches, dense information retrieval systems have emerged. One of the most commonly used algorithms in dense information retrieval systems is supervised learning, which requires a significant amount of labeled training data. Accessing such datasets is challenging in low-resource languages and information domains, such as Persian.
The aim of this research is to present an unsupervised dense information retrieval system for low-resource languages and information domains. To this end, the BERT language model, a pre-trained language model, has been utilized. Then, to fine-tune this language model for creating an information retrieval system, a selective Data Augmentation (SDA) approach is used to overcome the limitations of accessing labeled datasets. Based on this approach, new labeled samples are generated for the retrieval dataset. After fine-tuning the retrieval model, the proposed approach conducts an initial evaluation and then expands the samples in the training dataset where the dense retrieval model shows more weaknesses, which in subsequent stages, fine-tuning on the new data improves the modelʹs performance. For generating new samples, new queries are derived from existing documents using abstractive summarization methods.
The proposed solution is fine-tuned on the PersianQuAD dataset in Persian and compared with the base language model in metrics such as recall and Mean Reciprocal Rank (MRR). The results of the proposed solution show an improvement of 9.8% and 5.067% in the top three retrieved documents, respectively, compared to the initial state. Then, to evaluate the proposed solution in a language other than Persian, the Ms-Marco dataset in English is used. By fine-tuning the proposed model with this dataset, an improvement of 5.61 and 3.31 in recall and MRR metrics is achieved compared to the base and initial state, indicating the effectiveness and improvement of the proposed solution regardless of the language.
-
تعداد فصل ها
6
-
لينک به اين مدرک :