برچسب زني خودكار خطاهاي املايي زبان فارسي با استفاده از روش هاي يادگيري ماشين

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

زبانشناسي رايانشي

دانشكده

زبانهاي خارجي

تاريخ دفاع

شهريورماه 1402

صفحه شمار

107 ص.

استاد راهنما

رضوان متولّيان نائيني , عارفه كاظمي

كليدواژه فارسي

پيكره فراگير , خطاهاي املايي , پيكره , پردازش متن , مديريت پيكره

چكيده فارسي

زبان يكي از مهمترين راه‌هاي ارتباطي براي انتقال مفاهيم و احساسات بين انسان‌هاست،‌يادگيري زبان‌هاي جديد هميشه براي فراگيران با چالش ها و مشكلات زيادي به همراه آست، همچنين تشخيص اين چالش‌ها و مشكلات يكي از پيچيده‌ترين بخش هاي بهينه سازي آموزش زبان است.يكي از انواع خطاهايي كه فراگيران مرتكب ميشوند، خطاهاي املائي هستند. براي بررسي انواع خطاهاي فراگيران زبان، پيكره‌هايي مخصوص فراگيران به وجود آمده‌اند كه با برچسب‌هاي مناسب هر خطا، نوع آن خطا‌ را مشخص ميكنند و به فراگيران و پژوهشگران در تمامي زمينه‌هاي بررسي اين خطا‌ها كمك ميكنند. در اين پژوهش با استفاده از ابزارهاي ايجاد پيكره سعي شد تا در ابتدا با كمك به ايجاد و نگهداري پيكره فراگيران زبان فارسي دانشگاه اصفهان از طريق اماده‌سازي سامانه ‌اي براي ايجاد پيكره،كار ايجاد همچين پيكره‌اي هموار شود، سپس در راستاي برچسب‌گذاري خطايي خودكار با استفاده از روش هاي يادگيري ماشين همچون بيز‌ساده، ماشين هاي بردار پشتيبان، جنگل تصادفي و روش ميدان تصادفي شرطي، مدل هايي براي برچسب زدن خطاهاي املائي فراگيران ارائه شد كه توسط داده‌هاي استخراج شده از همين پيكره فراگير آموزش داده شده بودند. براي استفاده از داده‌هاي خروجي اين سامانه، داده‌هاي استخراج شده تا حد ممكن ارزيابي و نرمال‌سازي شد و سپس با انتخاب مقوله اصلي و زيرمقوله اول از دسته برچسب هاي معرفي شده توسط صادقي (1396) براي غلط هاي املائي، به پردازش آن‌ها با روش هاي ذكر شده پرداخته شد و يكي از اين مدل ‌هاي آموزش ديده به امتياز F1 0.74 دست پيدا كرد.

كليدواژه لاتين

Learner Corpora , Orthography Errors , Corpora , NLP , Corpora Management

عنوان لاتين

Automatic Annotaion of Persian Spelling Errors Using Machine Learning Techniques

گروه آموزشي

زبان شناسي

چكيده لاتين

Language is one of the most crucial means of communication for transmitting concepts an‎d feelings among humans. Learning new languages always presents learners with numerous challenges an‎d difficulties. Moreover, identifying these challenges an‎d problems is one of the most intricate aspects of optimizing language education. Among a variety of errors that learners commit, spelling mistakes are common. To investigate the types of errors made by language learners, specialized learner corpora have been developed. These corpora, equipped with appropriate labels for each error, help to identify these errors, assisting both learners an‎d researchers in studying these errors. In this research, we utilize corpus creation tools to aid in the establishment an‎d maintenance of a learner corpus, an‎d also prepare texts an‎d labels for these tools to facilitate the creation of such a corpus. Furthermore, we aim to present various models for automatically tagging spelling errors using Naive Bayes, SVM, Ran‎dom Forest an‎d also sequential labeling methods, such as Conditional Ran‎dom Fields (CRFs), trained using the same data extracted from the learner corpus. For this purpose, the extracted data is eva‎luated an‎d normalized as much as possible. Subsequently, by selec‎ting the main category an‎d the first subcategory of the labels introduced by Sadeghi (2017) for spelling errors, the existing data from the learner corpus is extracted an‎d the language model is trained using the CRFs method. Notwithstan‎ding that the learner corpus is relatively new an‎d the volume of unlabeled data substantially exceeds that of labeled data, one of the trained models achieved an F1 score of 0.74, demonstrating promising results in the automatic tagging of spelling errors.

تعداد فصل ها

فهرست مطالب pdf

156409

نويسنده

تقوي ثاني، سامان

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25633&Field=0&DTC=3