• شماره ركورد
    25109
  • شماره راهنما
    LIN2 252
  • عنوان

    مقايسه عملكرد ضرايب تبديل كسينوسي گسسته با مومان¬هاي طيفي در سايشي¬هاي زبان فارسي از منظر بازشناسي گوينده

  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    زبانشناسي رايانشي
  • دانشكده
    زبانهاي خارجي
  • تاريخ دفاع
    1404/07/27
  • صفحه شمار
    90 ص .
  • استاد راهنما
    هما اسدي
  • استاد مشاور
    والي رضائي
  • كليدواژه فارسي
    آواشناسي قضايي , شناسايي قضايي هويت گوينده , آواشناسي آكوستيك , سايشي‌هاي بي‌واك , الگوريتم‌هاي يادگيري ماشين , مشخصه تبديل كسينوسي گسسته , مومان‌هاي طيفي
  • چكيده فارسي
    اين پژوهش با هدف مقايسه عملكرد ضرايب تبديل كسينوسي گسسته و مومان‌هاي طيفي در آواهاي سايشي بي‌واك براي دسته‌بندي گويندگان فارسي‌زبان انجام شد. آواهاي سايشي/s/، /ʃ/، /f/ و /x/ از 24 گوينده بومي زبان فارسي (12 مرد و 12 زن) با لهجه معيار تهراني جمع‌آوري شدند. هر گوينده 108 جمله را در محيط آكوستيك كنترل‌شده خواند كه 2592 جمله و در نهايت تعداد 5115 نمونه صوتي از آواهاي مدنظر حاصل شد. ويژگي‌هاي آكوستيكي مومان‌هاي طيفي (مركز تجمع انرژي، انحراف معيار، چولگي و كشيدگي) با استفاده از نرم‌افزار پرت استخراج شدند و ضرايب تبديل كسينوسي گسسته (ضريب اول، ضريب دوم، ضريب سوم و ضريب چهارم) با استفاده از پايتون محاسبه گرديدند. براي دسته‌بندي گويندگان، دو روش يادگيري ماشين شامل جنگل تصادفي و مدل مخفي ماركوف به كار گرفته شدند. يافته‌ها نشان داد كه روش جنگل تصادفي در تركيب با ضرايب تبديل كسينوسي گسسته با صحت 14/90% بهترين كارايي را داشته است، در حالي كه مدل مخفي ماركوف در تركيب با مومان‌هاي طيفي با صحت 21/76% ضعيف‌ترين عملكرد را نشان داد. در مجموع، از ميان روش‌هاي يادگيري ماشين بررسي‌شده، جنگل تصادفي و از ميان ويژگي‌هاي آكوستيكي، ضرايب تبديل كسينوسي گسسته كارآمدترين بودند. در پايان، اين پژوهش بر نقش برجسته آواهاي سايشي بي‌واك در بازشناسي گوينده تأكيد مي‌كند و نتايج آن مي‌تواند در سامانه‌هاي بازشناسي گوينده و پردازش گفتار زبان فارسي سودمند باشد.
  • كليدواژه لاتين
    forensic phonetics , forensic speaker identification , acoustic phonetics , voiceless fricatives , machine learning algorithms , discrete cosine transform coefficients , spectral moments
  • عنوان لاتين
    Performance comparison of discrete cosine transformation coefficients with spectral moments in Persian fricatives for speaker recognition
  • گروه آموزشي
    زبان شناسي
  • چكيده لاتين
    This study aimed to compare the performance of Discrete Cosine Transform (DCT) coefficients an‎d spectral moments in voiceless fricatives for classifying Persian speakers. The fricatives /s/, /ʃ/, /f/, an‎d /x/ were collected from 24 native Persian speakers (12 male an‎d 12 female) with the stan‎dard Tehrani accent. Each speaker read 108 sentences in a controlled acoustic environment, yielding a total of 2,592 sentences an‎d ultimately 5,115 fricative tokens. Acoustic features of spectral moments (center of gravity, stan‎dard deviation, skewness, an‎d kurtosis) were extracted using Praat software, while DCT coefficients (first, second, third, an‎d fourth) were calculated using Python. For speaker classification, two machine learning methods—Ran‎dom Forest an‎d Hidden Markov Model—were employed. The results showed that the Ran‎dom Forest method combined with DCT coefficients achieved the highest accuracy (90.14%), while the Hidden Markov Model combined with spectral moments showed the weakest performance (76.21%). Overall, among the examined machine learning methods, Ran‎dom Forest was the most effective, an‎d among the acoustic features, DCT coefficients outperformed spectral moments. Ultimately, this study highlights the significant role of voiceless fricatives in speaker recognition, an‎d the findings can be beneficial for Persian speaker recognition systems an‎d speech processing applications.
  • تعداد فصل ها
    5
  • فهرست مطالب pdf
    147179
  • نويسنده

    ميرزائي، عليرضا