مقايسه عملكرد ضرايب تبديل كسينوسي گسسته با مومان¬هاي طيفي در سايشي¬هاي زبان فارسي از منظر بازشناسي گوينده

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

زبانشناسي رايانشي

دانشكده

زبانهاي خارجي

تاريخ دفاع

1404/07/27

صفحه شمار

90 ص .

استاد راهنما

هما اسدي

استاد مشاور

والي رضائي

كليدواژه فارسي

آواشناسي قضايي , شناسايي قضايي هويت گوينده , آواشناسي آكوستيك , سايشي‌هاي بي‌واك , الگوريتم‌هاي يادگيري ماشين , مشخصه تبديل كسينوسي گسسته , مومان‌هاي طيفي

چكيده فارسي

اين پژوهش با هدف مقايسه عملكرد ضرايب تبديل كسينوسي گسسته و مومان‌هاي طيفي در آواهاي سايشي بي‌واك براي دسته‌بندي گويندگان فارسي‌زبان انجام شد. آواهاي سايشي/s/، /ʃ/، /f/ و /x/ از 24 گوينده بومي زبان فارسي (12 مرد و 12 زن) با لهجه معيار تهراني جمع‌آوري شدند. هر گوينده 108 جمله را در محيط آكوستيك كنترل‌شده خواند كه 2592 جمله و در نهايت تعداد 5115 نمونه صوتي از آواهاي مدنظر حاصل شد. ويژگي‌هاي آكوستيكي مومان‌هاي طيفي (مركز تجمع انرژي، انحراف معيار، چولگي و كشيدگي) با استفاده از نرم‌افزار پرت استخراج شدند و ضرايب تبديل كسينوسي گسسته (ضريب اول، ضريب دوم، ضريب سوم و ضريب چهارم) با استفاده از پايتون محاسبه گرديدند. براي دسته‌بندي گويندگان، دو روش يادگيري ماشين شامل جنگل تصادفي و مدل مخفي ماركوف به كار گرفته شدند. يافته‌ها نشان داد كه روش جنگل تصادفي در تركيب با ضرايب تبديل كسينوسي گسسته با صحت 14/90% بهترين كارايي را داشته است، در حالي كه مدل مخفي ماركوف در تركيب با مومان‌هاي طيفي با صحت 21/76% ضعيف‌ترين عملكرد را نشان داد. در مجموع، از ميان روش‌هاي يادگيري ماشين بررسي‌شده، جنگل تصادفي و از ميان ويژگي‌هاي آكوستيكي، ضرايب تبديل كسينوسي گسسته كارآمدترين بودند. در پايان، اين پژوهش بر نقش برجسته آواهاي سايشي بي‌واك در بازشناسي گوينده تأكيد مي‌كند و نتايج آن مي‌تواند در سامانه‌هاي بازشناسي گوينده و پردازش گفتار زبان فارسي سودمند باشد.

كليدواژه لاتين

forensic phonetics , forensic speaker identification , acoustic phonetics , voiceless fricatives , machine learning algorithms , discrete cosine transform coefficients , spectral moments

عنوان لاتين

Performance comparison of discrete cosine transformation coefficients with spectral moments in Persian fricatives for speaker recognition

گروه آموزشي

زبان شناسي

چكيده لاتين

This study aimed to compare the performance of Discrete Cosine Transform (DCT) coefficients an‎d spectral moments in voiceless fricatives for classifying Persian speakers. The fricatives /s/, /ʃ/, /f/, an‎d /x/ were collected from 24 native Persian speakers (12 male an‎d 12 female) with the stan‎dard Tehrani accent. Each speaker read 108 sentences in a controlled acoustic environment, yielding a total of 2,592 sentences an‎d ultimately 5,115 fricative tokens. Acoustic features of spectral moments (center of gravity, stan‎dard deviation, skewness, an‎d kurtosis) were extracted using Praat software, while DCT coefficients (first, second, third, an‎d fourth) were calculated using Python. For speaker classification, two machine learning methods—Ran‎dom Forest an‎d Hidden Markov Model—were employed. The results showed that the Ran‎dom Forest method combined with DCT coefficients achieved the highest accuracy (90.14%), while the Hidden Markov Model combined with spectral moments showed the weakest performance (76.21%). Overall, among the examined machine learning methods, Ran‎dom Forest was the most effective, an‎d among the acoustic features, DCT coefficients outperformed spectral moments. Ultimately, this study highlights the significant role of voiceless fricatives in speaker recognition, an‎d the findings can be beneficial for Persian speaker recognition systems an‎d speech processing applications.

تعداد فصل ها

فهرست مطالب pdf

147179

نويسنده

ميرزائي، عليرضا

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25109&Field=0&DTC=3