-
شماره ركورد
24598
-
شماره راهنما
LIN2 248
-
نويسنده
داودي، راحيل
-
عنوان
گوناگوني بينگوينده سايشيهاي بيواك زبان فارسي در سبكهاي گفتاري خوانشي و واضح با استفاده از الگوريتمهاي يادگيري ماشين
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
زبانشناسي رايانشي
-
دانشكده
زبانهاي خارجي
-
تاريخ دفاع
1404/02/16
-
صفحه شمار
90 ص.
-
استاد راهنما
هما اسدي , حميدرضا برادران كاشاني
-
كليدواژه فارسي
آواشناسي قضايي , شناسايي قضايي هويت گوينده , آواشناسي آكوستيك , سايشيهاي بيواك، الگوريتمهاي يادگيري ماشين , الگوريتمهاي يادگيري ماشين
-
چكيده فارسي
در اين پژوهش، به بررسي قابليتهاي سايشيهاي بيواك زبان فارسي در شناسايي سبكهاي گفتاري و هويت گوينده پرداخته شده است. براي اين منظور، دو دسته پارامتر آكوستيكي از سايشيهاي بيواك استخراج گرديد: دستۀ اول شامل گشتاورهاي طيفي (مركز تجمع انرژي، انحراف معيار، چولگي و كشيدگي) و دستۀ دوم شامل ضرايب كپسترال فركانسي مل بودند. عملكرد اين پارامترها با استفاده از سه الگوريتم يادگيري ماشين شامل نزديكترين همسايه، ماشين بردار پشتيبان و جنگل تصادفي مورد تجزيه و تحليل قرار گرفت. در زمينۀ شناسايي سبك گفتار، نتايج نشان داد كه الگوريتم جنگل تصادفي با استفاده از گشتاورهاي طيفي بهترين صحت (61.6%) را ارائه داده است. با اين حال، هنگامي كه از ضرايب كپسترال فركانسي مل استفاده شد، الگوريتم نزديكترين همسايه صحت بالاتري (82.9%) را از خود نشان داد. همچنين، زماني كه گشتاورهاي طيفي و ضرايب كپسترال فركانسي مل به صورت تركيبي براي شناسايي سبك گفتاري مورد استفاده قرار گرفتند، الگوريتم نزديكترين همسايه با صحت 82.6% بهترين عملكرد را از خود نشان داد. در رابطه با شناسايي هويت گوينده، نتايج نشان داد كه الگوريتمهاي ياد شده با استفاده از گشتاورهاي طيفي در هر دو سبك گفتاري (واضح و خوانشي) نتايج مطلوبي ارائه نكردهاند. در اين حالت، بالاترين صحت مربوط به الگوريتم نزديكترين همسايه (13.7%) در سبك گفتاري واضح بود كه عملكرد چندان مطلوبي تلقي نميشود. با اين حال، با بهكارگيري ضرايب كپسترال فركانسي مل، عملكرد الگوريتمها بهبود يافت و بهترين نتيجه با صحت 79.5% در الگوريتم نزديكترين همسايه و در سبك گفتاري واضح بهدست آمد. همچنين، نتايج نشان داد كه عملكرد تركيب گشتاورهاي طيفي و ضرايب كپسترال فركانسي مل در نشان دادن گوناگونيهاي بينگوينده، در همۀ الگوريتمها اندكي كمتر از نتيجۀ ضرايب كپسترال فركانسي مل بوده است (%76.8 در الگوريتم نزديكترين همسايه). بر اساس نتايج، شناسايي گوينده در سبك گفتاري واضح نسبت به سبك گفتاري خوانشي با تقريب يك درصدي، بهتر بوده است. علاوه بر اين، نتايج نشان داد كه در هر پارامتر بهصورت جداگانه، سايشيهاي بيواك /s/ و /ʃ/ نسبت به ساير سايشيهاي بيواك حاوي اطلاعات فردويژهتري هستند اما در هنگام تركيب پارامترها سايشي /x/ با صحت %90.2 در الگوريتم جنگل تصادفي، عملكرد بالايي داشته است. در مجموع، بر اساس يافتههاي اين پژوهش ميتوان اذعان داشت كه ضرايب كپسترال فركانسي مل مستخرج از سايشيهاي بيواك ميتواند ابزاري مناسب در تحليل سبكهاي گفتاري و شناسايي هويت گويندگان فارسيزبان باشد.
-
كليدواژه لاتين
Forensic phonetics , Forensic speaker identification , Acoustic phonetics , Voiceless fricatives , Machine learning algorithms
-
عنوان لاتين
Between-Speaker Variability of Voiceless Fricatives of Persian in Read and Clear Speaking Styles Using Machine Learning Methods
-
گروه آموزشي
زبان شناسي
-
چكيده لاتين
This research investigates the discriminative capabilities of Persian voiceless fricatives in speaking style classification and speaker identification tasks. Two distinct sets of acoustic parameters were extracted from voiceless fricative segments: first, spectral moments (including center of gravity, standard deviation, skewness, and kurtosis), and second, Mel-frequency cepstral coefficients. The classification performance was evaluated using three machine learning algorithms: k-nearest neighbor, support vector machine, and random forest. For speaking style identification, results demonstrated that the random forest algorithm utilizing spectral moment features achieved a maximum accuracy of 61.6%. In contrast, the k-nearest neighbor algorithm employing Mel-frequency cepstral coefficient features yielded superior classification performance with 82.9% accuracy. The combined implementation of spectral moments and Mel-frequency cepstral coefficients maintained this 82.6% classification accuracy when processed by the k-nearest neighbor algorithm. In speaker identification tasks, spectral moment features exhibited limited effectiveness across both speaking styles (clear and read), with the k-nearest neighbor algorithm attaining only 13.7% identification accuracy in the clear speaking style condition. However, implementation of Mel-frequency cepstral coefficient features substantially enhanced system performance, with the k-nearest neighbor algorithm achieving 79.5% identification accuracy in clear speaking style. The combined feature approach showed slightly inferior performance (76.8% accuracy in k-nearest neighbor algorithm) compared to using Mel-frequency cepstral coefficients alone. The analysis revealed approximately 1% higher accuracy for speaker identification in clear speaking style compared to read speaking style. Phoneme-specific evaluation indicated that /s/ and /ʃ/ fricatives contained the most speaker-specific information when analyzed individually, while the /x/ fricative demonstrated exceptional performance (90.2% accuracy) under the random forest algorithm when using combined features. These findings collectively demonstrate that Mel-frequency cepstral coefficients extracted from Persian voiceless fricatives serve as effective acoustic parameters for both speaking style classification and speaker identification. The results further suggest that spectral moments and Mel-frequency cepstral coefficients provide complementary information for capturing speaker characteristics across different speaking styles.
-
تعداد فصل ها
5
-
استاد مشاور خارج از دانشگاه
اليسا پلگرينو
-
لينک به اين مدرک :