ترجمه ماشيني عصبي زبان كم‌منبع انگليسي به فارسي با كمك مدل هاي چندزبانه

مقطع تحصيلي

دكتري

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1404.06.23

صفحه شمار

110 ص.

استاد راهنما

دكتر رضا رمضاني , دكتر احمد براآني

استاد مشاور

دكتر عارفه كاظمي

كليدواژه فارسي

مدل ترجمه ماشيني عصبي چندزبانه , زبان هاي كم منبع , ، دوقلوسازي زيرگره¬ها

چكيده فارسي

امروزه با گسترش سريع اينترنت در سطح جهاني، تبادل اخبار و كتاب‌ها به زبان‌هاي مختلف با سرعت بي‌سابقه‌اي انجام مي‌شود. همچنين، شبكه‌هاي اجتماعي اين امكان را فراهم كرده‌اند كه افراد با زبان‌هاي مختلف به‌راحتي با يكديگر ارتباط برقرار كنند. اين تحولات، نياز به سيستم‌هاي ترجمه چندزبانه كارآمد را بيش‌ازپيش افزايش داده است. در ميان روش‌هاي موجود براي ساخت مترجم، سيستم‌هاي ترجمه ماشيني عصبي چندزبانه عملكرد بهتري نسبت به ساير روش‌ها از خود نشان مي‌دهند. با اين حال، عملكرد اين مدل‌ها به شدت وابسته به حجم و كيفيت داده‌هاي آموزشي در دسترس است. ازآنجاكه برخي از زبان‌هاي جهان با كمبود منابع مواجه هستند، اين مسئله منجر به كاهش دقت و كارايي مدل‌هاي ترجمه در اين زبان‌ها مي‌شود. براي مقابله با اين چالش‌ها، در اين رساله دو روش پيشنهادي ارائه گرديده است. هدف اصلي روش پيشنهادي اول بهبود عملكرد مدل ترجمه ماشيني عصبي چندزبانه براي يك جفت زبان كه زبان مقصد كم منبع است، مي‌باشد. ايده اصلي اين روش يافتن گره‌هاي مهمي است كه پارامترهاي متصل به آنها به طور منفي بر مدل ترجمه ماشيني عصبي چندزبانه تأثير مي‌گذارند. سپس اين گره‌ها به دو زيرگره تقسيم شده و مدل زير گره مهمي كه بر جفت زبان خاص تأثير دارد را انتخاب مي‌كند تا يك زير گره دوقلو ايجاد كند. اين زير گره دوقلو به تقويت كيفيت ترجمه جفت زبان مقصد كمك مي‌كند؛ بدون اينكه تأثير منفي بر ساير زبان‌ها داشته باشد. نوآوري روش پيشنهادي اول عبارت است از 1) نشان‌دادن عملكرد قابل‌قبول براي زبان كم منبع مقصد زماني كه مجموعه داده¬ها نامتعادل است. 2) روش پيشنهادي نيازي به حجم زيادي از داده‌ها از زبان‌هاي متعدد ندارد، در حالي كه مدل‌هاي مترجم ماشيني عصبي چندزبانه سنتي براي آموزش مناسب به داده‌هاي موازي غني نياز دارند. 3) روش پيشنهادي يك‌بار آموزش داده مي‌شود؛ اما برخي مدل‌هاي موجود هنگام تغيير معماري نياز به آموزش مجدد دارند. 4) روش پيشنهادي با تقسيم گره‌ها از مشكل استنتاج منفي جلوگيري مي‌كند و سپس از اثرات مثبت زبان‌هاي خانواده از طريق گره‌هاي دوقلو استفاده مي‌كند تا كيفيت ترجمه زبان كم منبع مقصد را بهبود بخشد. روش پيشنهادي دوم از گروه‌بندي گراف‌هاي محاسباتي بر اساس شباهت معنايي براي شناسايي گره‌هاي مؤثر و غيرمؤثر استفاده مي‌كند. گره‌هاي مؤثر و غيرمؤثر براي مدل‌هاي مدل ترجمه ماشيني عصبي چندزبانه اهميت دارند، زيرا تغيير آنها مي‌تواند كيفيت ترجمه را براي زبان‌هاي كم منبع و زبان مقصد شديداً كم منبع بهبود بخشد. نوآوري روش پيشنهادي دوم عبارت است از: 1) بهبود كيفيت ترجمه براي زبان‌هاي كم منبع و بسيار كم منبع مقصد. 2) روش پيشنهادي دوم مشكل استنتاج منفي را با تقسيم گره‌ها كاهش مي‌دهد و اثرات مثبت زبان‌هاي مرتبط را از طريق دوقلوسازي كردن گره‌ها بهره‌برداري مي‌كند، تا كيفيت ترجمه در زبان‌هاي مقصد بسيار كم منبع و كم منبع را بهبود بخشد. براي ارزيابي روش‌هاي پيشنهادي اين رساله از چندين مجموعه داده چندزبانه، از جمله TED 2013، TED 2020، BIBLE و OPUS-100 استفاده شده است. نتايج به دست آمده از روش پيشنهادي اول نشان مي‌دهد كه اين روش بهترين نتايج را براي مدل‌هاي يك به چند و چند به چند بر اساس ميانگين مقدار BLEU و شباهت معنايي به دست مي‌آورد. همچنين نتايج نشان مي‌دهد كه اين روش نتايج بهتري نسبت به ساير مدل‌هاي زبان بزرگ شناخته شده، مانند ChatGPT، BING GPT4 و مدل ترجمه عصبي گوگل در هنگام اعمال بر روي يك زبان كم‌منبع ارائه مي‌دهد. نتايج بدست آمده از روش پيشنهادي دوم نيز نشان مي‌دهد كه اين روش بهترين نتايج ترجمه را براي اكثر زبان‌ها در مدل‌هاي يك به چند و چند به چند به دست مي‌آورد، به‌ويژه براي زبان‌هاي كم‌منبع مقصد و زبان شديداً كم منبع مقصد. اين مقايسه به‌وسيله ميانگين مقدار BLEU و شباهت معنايي انجام شده است. نتايج همچنين نشان مي‌دهد كه روش پيشنهادي دوم از ساير مدل‌هاي زبان بزرگ شناخته شده، مانند ChatGPT، Gemini، Bing GPT-4 و مدل ترجمه عصبي گوگل در هنگام اعمال بر روي يك زبان كم منبع مقصد و شديداً كم منبع بهتر عمل كرده است. همچنين در مقايسه روش پيشنهادي دوم روش چندماهيتي Gemini استفاده شده است، زيرا اين روش به داده‌هاي متنوعي دسترسي دارد و عملكرد بهتري نسبت به مدل‌هاي زباني بزرگ ديگر دارد.

كليدواژه لاتين

Multilingual Neural Machine Translation Model , Low-Resource Languages , Twin Sub-nodes

عنوان لاتين

Neural Machine Translations of Low-source English to Persian Language using Multilingual Models

گروه آموزشي

مهندسي نرم افزار

چكيده لاتين

Abstract Today, with the rapid expansion of the internet globally, the exchange of news an‎d books in different languages is taking place at an unprecedented speed. Additionally, social networks have made it possible for people speaking different languages to easily communicate with each other. These developments have increasingly heightened the need for efficient multilingual translation systems. Among the existing methods for building translators, multilingual neural machine translation systems demonstrate better performance compared to other approaches. However, the performance of these models is dependent on the volume an‎d quality of available training data. Since some of the worldʹs languages face resource scarcity, this issue leads to reduced accuracy an‎d efficiency of translation models for these languages. To address these challenges, two proposed methods are presented in this dissertation. The main objective of the first proposed method is to improve the performance of multilingual neural machine translation models for a language pair where the destination language is low-resource. The main idea of this method is to identify important nodes whose connected parameters negatively affect the multilingual neural machine translation model. These nodes are then split into two sub-nodes, an‎d the model selec‎ts the sub-node that significantly impacts the specific language pair to create a twin sub-node. This twin sub-node helps improve the translation quality of the specific language pair without negatively affecting other languages. The innovations of the first proposed method are as follows: 1) Demonstrating acceptable performance for low-resource destination languages when the dataset is imbalanced. 2) The proposed method does not require a large volume of data from multiple languages, while traditional multilingual neural machine translation models need rich parallel data for proper training. 3) The proposed method is trained once, but some existing models require retraining when the architecture changes. 4) The proposed method prevents the negative inference problem by dividing nodes an‎d then utilizes the positive effects of language families through twin nodes to improve the translation quality of the low-resource destination language. The second proposed method uses grouping of computational graphs based on semantic similarity to identify effective an‎d ineffective nodes. Effective an‎d ineffective nodes are important for multilingual neural machine translation models, as modifying them can enhance translation quality for low-resource an‎d extremely low-resource destination languages. The innovations of the second proposed method, are as follows: 1) Improving translation quality for low-resource an‎d extremely low-resource destination languages. 2) The second proposed method reduces the negative inference problem by dividing nodes an‎d exploits the positive effects of related languages through node pairing to improve translation quality in extremely low-resource an‎d low-resource destination languages.

تعداد فصل ها

فهرست مطالب pdf

145409

نويسنده

قرباني سرايدشتي، ابوذر

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=24992&Field=0&DTC=3