شماره ركورد
25633
شماره راهنما
LIN2 260
عنوان
برچسب زني خودكار خطاهاي املايي زبان فارسي با استفاده از روش هاي يادگيري ماشين
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
زبانشناسي رايانشي
دانشكده
زبانهاي خارجي
تاريخ دفاع
شهريورماه 1402
صفحه شمار
107 ص.
استاد راهنما
رضوان متولّيان نائيني , عارفه كاظمي
كليدواژه فارسي
پيكره فراگير , خطاهاي املايي , پيكره , پردازش متن , مديريت پيكره
چكيده فارسي
زبان يكي از مهمترين راههاي ارتباطي براي انتقال مفاهيم و احساسات بين انسانهاست،يادگيري زبانهاي جديد هميشه براي فراگيران با چالش ها و مشكلات زيادي به همراه آست، همچنين تشخيص اين چالشها و مشكلات يكي از پيچيدهترين بخش هاي بهينه سازي آموزش زبان است.يكي از انواع خطاهايي كه فراگيران مرتكب ميشوند، خطاهاي املائي هستند. براي بررسي انواع خطاهاي فراگيران زبان، پيكرههايي مخصوص فراگيران به وجود آمدهاند كه با برچسبهاي مناسب هر خطا، نوع آن خطا را مشخص ميكنند و به فراگيران و پژوهشگران در تمامي زمينههاي بررسي اين خطاها كمك ميكنند.
در اين پژوهش با استفاده از ابزارهاي ايجاد پيكره سعي شد تا در ابتدا با كمك به ايجاد و نگهداري پيكره فراگيران زبان فارسي دانشگاه اصفهان از طريق امادهسازي سامانه اي براي ايجاد پيكره،كار ايجاد همچين پيكرهاي هموار شود، سپس در راستاي برچسبگذاري خطايي خودكار با استفاده از روش هاي يادگيري ماشين همچون بيزساده، ماشين هاي بردار پشتيبان، جنگل تصادفي و روش ميدان تصادفي شرطي، مدل هايي براي برچسب زدن خطاهاي املائي فراگيران ارائه شد كه توسط دادههاي استخراج شده از همين پيكره فراگير آموزش داده شده بودند.
براي استفاده از دادههاي خروجي اين سامانه، دادههاي استخراج شده تا حد ممكن ارزيابي و نرمالسازي شد و سپس با انتخاب مقوله اصلي و زيرمقوله اول از دسته برچسب هاي معرفي شده توسط صادقي (1396) براي غلط هاي املائي، به پردازش آنها با روش هاي ذكر شده پرداخته شد و يكي از اين مدل هاي آموزش ديده به امتياز F1 0.74 دست پيدا كرد.
كليدواژه لاتين
Learner Corpora , Orthography Errors , Corpora , NLP , Corpora Management
عنوان لاتين
Automatic Annotaion of Persian Spelling Errors Using Machine Learning Techniques
گروه آموزشي
زبان شناسي
چكيده لاتين
Language is one of the most crucial means of communication for transmitting concepts and feelings among humans. Learning new languages always presents learners with numerous challenges and difficulties. Moreover, identifying these challenges and problems is one of the most intricate aspects of optimizing language education. Among a variety of errors that learners commit, spelling mistakes are common. To investigate the types of errors made by language learners, specialized learner corpora have been developed. These corpora, equipped with appropriate labels for each error, help to identify these errors, assisting both learners and researchers in studying these errors.
In this research, we utilize corpus creation tools to aid in the establishment and maintenance of a learner corpus, and also prepare texts and labels for these tools to facilitate the creation of such a corpus. Furthermore, we aim to present various models for automatically tagging spelling errors using Naive Bayes, SVM, Random Forest and also sequential labeling methods, such as Conditional Random Fields (CRFs), trained using the same data extracted from the learner corpus.
For this purpose, the extracted data is evaluated and normalized as much as possible. Subsequently, by selecting the main category and the first subcategory of the labels introduced by Sadeghi (2017) for spelling errors, the existing data from the learner corpus is extracted and the language model is trained using the CRFs method. Notwithstanding that the learner corpus is relatively new and the volume of unlabeled data substantially exceeds that of labeled data, one of the trained models achieved an F1 score of 0.74, demonstrating promising results in the automatic tagging of spelling errors.
تعداد فصل ها
5
فهرست مطالب pdf
156409
نويسنده