گوناگوني بين‌گوينده سايشي‌هاي بي‌واك زبان فارسي در سبك‌هاي گفتاري خوانشي و واضح با استفاده از الگوريتم‌هاي يادگيري ماشين

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

زبانشناسي رايانشي

دانشكده

زبانهاي خارجي

تاريخ دفاع

1404/02/16

صفحه شمار

90 ص.

استاد راهنما

هما اسدي , حميدرضا برادران كاشاني

كليدواژه فارسي

آواشناسي قضايي , شناسايي قضايي هويت گوينده , آواشناسي آكوستيك , سايشي‌هاي بي‌واك، الگوريتم‌هاي يادگيري ماشين , الگوريتم‌هاي يادگيري ماشين

چكيده فارسي

در اين پژوهش، به بررسي قابليت‌هاي سايشي‌هاي بي‌واك زبان فارسي در شناسايي سبك‌هاي گفتاري و هويت گوينده پرداخته شده است. براي اين منظور، دو دسته پارامتر آكوستيكي از سايشي‌هاي بي‌واك استخراج گرديد: دستۀ اول شامل گشتاورهاي طيفي (مركز تجمع انرژي، انحراف معيار، چولگي و كشيدگي) و دستۀ دوم شامل ضرايب كپسترال فركانسي مل بودند. عملكرد اين پارامترها با استفاده از سه الگوريتم يادگيري ماشين شامل نزديك‌ترين همسايه، ماشين بردار پشتيبان و جنگل تصادفي مورد تجزيه و تحليل قرار گرفت. در زمينۀ شناسايي سبك گفتار، نتايج نشان داد كه الگوريتم جنگل تصادفي با استفاده از گشتاورهاي طيفي بهترين صحت (61.6%) را ارائه داده است. با اين حال، هنگامي كه از ضرايب كپسترال فركانسي مل استفاده شد، الگوريتم نزديك‌ترين همسايه صحت بالاتري (82.9%) را از خود نشان داد. همچنين، زماني كه گشتاورهاي طيفي و ضرايب كپسترال فركانسي مل به صورت تركيبي براي شناسايي سبك گفتاري مورد استفاده قرار گرفتند، الگوريتم نزديك‌ترين همسايه با صحت 82.6% بهترين عملكرد را از خود نشان داد. در رابطه با شناسايي هويت گوينده، نتايج نشان داد كه الگوريتم‌هاي ياد شده با استفاده از گشتاورهاي طيفي در هر دو سبك گفتاري (واضح و خوانشي) نتايج مطلوبي ارائه نكرده‌اند. در اين حالت، بالاترين صحت مربوط به الگوريتم نزديك‌ترين همسايه (13.7%) در سبك گفتاري واضح بود كه عملكرد چندان مطلوبي تلقي نمي‌شود. با اين حال، با به‌كارگيري ضرايب كپسترال فركانسي مل، عملكرد الگوريتم‌ها بهبود يافت و بهترين نتيجه با صحت 79.5% در الگوريتم نزديك‌ترين همسايه و در سبك گفتاري واضح به‌دست آمد. همچنين، نتايج نشان داد كه عملكرد تركيب گشتاورهاي طيفي و ضرايب كپسترال فركانسي مل در نشان دادن گوناگوني‌هاي بين‌گوينده، در همۀ الگوريتم‌ها اندكي كمتر از نتيجۀ ضرايب كپسترال فركانسي مل بوده است (%76.8 در الگوريتم نزديك‌ترين همسايه). بر اساس نتايج، شناسايي گوينده در سبك گفتاري واضح نسبت به سبك گفتاري خوانشي با تقريب يك درصدي، بهتر بوده است. علاوه بر اين، نتايج نشان داد كه در هر پارامتر به‌صورت جداگانه، سايشي‌هاي بي‌واك /s/ و /ʃ/ نسبت به ساير سايشي‌هاي بي‌واك حاوي اطلاعات فردويژه‌تري هستند اما در هنگام تركيب پارامترها سايشي /x/ با صحت %90.2 در الگوريتم جنگل تصادفي، عملكرد بالايي داشته است. در مجموع، بر اساس يافته‌هاي اين پژوهش مي‌توان اذعان داشت كه ضرايب كپسترال فركانسي مل مستخرج از سايشي‌هاي بي‌واك مي‌تواند ابزاري مناسب در تحليل سبك‌هاي گفتاري و شناسايي هويت گويندگان فارسي‌زبان باشد.

كليدواژه لاتين

Forensic phonetics , Forensic speaker identification , Acoustic phonetics , Voiceless fricatives , Machine learning algorithms

عنوان لاتين

Between-Speaker Variability of Voiceless Fricatives of Persian in Read an‎d Clear Speaking Styles Using Machine Learning Methods

گروه آموزشي

زبان شناسي

چكيده لاتين

This research investigates the discriminative capabilities of Persian voiceless fricatives in speaking style classification an‎d speaker identification tasks. Two distinct sets of acoustic parameters were extracted from voiceless fricative segments: first, spectral moments (including center of gravity, stan‎dard deviation, skewness, an‎d kurtosis), an‎d second, Mel-frequency cepstral coefficients. The classification performance was eva‎luated using three machine learning algorithms: k-nearest neighbor, support vector machine, an‎d ran‎dom forest. For speaking style identification, results demonstrated that the ran‎dom forest algorithm utilizing spectral moment features achieved a maximum accuracy of 61.6%. In contrast, the k-nearest neighbor algorithm employing Mel-frequency cepstral coefficient features yielded superior classification performance with 82.9% accuracy. The combined implementation of spectral moments an‎d Mel-frequency cepstral coefficients maintained this 82.6% classification accuracy when processed by the k-nearest neighbor algorithm. In speaker identification tasks, spectral moment features exhibited limited effectiveness across both speaking styles (clear an‎d read), with the k-nearest neighbor algorithm attaining only 13.7% identification accuracy in the clear speaking style condition. However, implementation of Mel-frequency cepstral coefficient features substantially enhanced system performance, with the k-nearest neighbor algorithm achieving 79.5% identification accuracy in clear speaking style. The combined feature approach showed slightly inferior performance (76.8% accuracy in k-nearest neighbor algorithm) compared to using Mel-frequency cepstral coefficients alone. The analysis revealed approximately 1% higher accuracy for speaker identification in clear speaking style compared to read speaking style. Phoneme-specific eva‎luation indicated that /s/ an‎d /ʃ/ fricatives contained the most speaker-specific information when analyzed individually, while the /x/ fricative demonstrated exceptional performance (90.2% accuracy) under the ran‎dom forest algorithm when using combined features. These findings collectively demonstrate that Mel-frequency cepstral coefficients extracted from Persian voiceless fricatives serve as effective acoustic parameters for both speaking style classification an‎d speaker identification. The results further suggest that spectral moments an‎d Mel-frequency cepstral coefficients provide complementary information for capturing speaker characteristics across different speaking styles.

تعداد فصل ها

استاد مشاور خارج از دانشگاه

اليسا پلگرينو

فهرست مطالب pdf

123753

نويسنده

داودي، راحيل

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=24598&Field=0&DTC=3