-
شماره ركورد
25095
-
شماره راهنما
MAT2 717
-
نويسنده
اميري، محمدامين
-
عنوان
مقايسه روشهاي ردهبندي دادههاي نامتوازن
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
علوم كامپيوتر- الگوريتم و نظريه محاسبه
-
دانشكده
رياضي و آمار
-
تاريخ دفاع
1404/06/26
-
صفحه شمار
103 ص .
-
استاد راهنما
جعفر الماسي زاده
-
استاد مشاور
فاطمه منصوري
-
كليدواژه فارسي
دستهبندي دادههاي نامتوازن , يادگيري ماشين , يادگيري عميق , پيشپردازش داده , روشهاي تركيبي , مدل DBC
-
چكيده فارسي
يكي از مسائل پايهاي و چالشبرانگيز در حوزهي يادگيري ماشين، مسئلهي دستهبندي دادههاي نامتوازن است. در بسياري از كاربردهاي تحليل دادهها نظير تشخيص تراكنشهاي تقلبي، تحليل سوانح رانندگي، شناسايي بيماريهاي نادر و سامانههاي هشداردهنده، دادهها به گونهاي توزيع شدهاند كه تعداد نمونهها در برخي ردهها بهطور قابل توجهي كمتر از تعداد نمونهها در ساير ردهها است. اين عدم توازن موجب ميشود كه روشهاي متداول در دستهبندي در شناسايي نمونههاي اقليت كارايي مطلوبي نداشته باشند.
هدف اين پاياننامه، بررسي و مقايسهي جامع روشهاي گوناگون در دستهبندي دادههاي نامتوازن و پيشنهاد يك مدل براي حل كاراتر اين مسئله است. در ابتداي مفاهيم پايهاي و اهميت متوازن بودن دادهها تشريح شده و سپس راهكارهاي موجود براي مواجهه با اين چالش مورد بررسي قرار گرفتهاند. اين راهكارها شامل ايجاد توازن مصنوعي ميان دادهها، اصلاح الگوريتمهاي يادگيري و بهرهگيري از روشهاي تركيبي هستند.
مدل پيشنهادي اين پژوهش كه DBC ناميده شده است، با تلفيق ساختارهاي يادگيري عميق و بهكارگيري همزمان رويكردهاي دادهمحور و الگوريتممحور طراحي شده است. با اين مدل ميتوان آسانتر احتمال تصميمگيري را تنظيم كرد، ويژگيهاي پيچيدهي دادهها را استخراج كرد و نمونههاي ردهي اقليت را با دقت بالاتري شناسايي نمود.
در ادامه، مدلهاي دستهبندي مختلف بر روي مجموعه دادههاي واقعي نامتوازن پيادهسازي و عملكرد آنها با شاخصهاي متنوع ارزيابي شده است. نتايج بهدستآمده نشان ميدهند كه با استفاده از رويكردهاي تركيبي همراه با پيشپردازشهاي مناسب دادهها ميتوان عملكرد مدلهاي حل مسئلهي دستهبندي دادههاي نامتوازن را بهبود بخشيد.
-
كليدواژه لاتين
Imbalanced Data Classification , Machine Learning , Deep Learning , Data Preprocessing , Hybrid Methods , DBC Model
-
عنوان لاتين
A Comparison of Methods for Classifying Imbalanced Data
-
گروه آموزشي
رياضي كاربردي و علوم كامپيوتر
-
چكيده لاتين
One of the fundamental and challenging issues in the field of machine learning is the problem of imbalanced data classification. In many data analysis appli-cations, such as fraudulent transaction detection, traffic accident analysis, rare disease identification, and warning systems, the data is distributed in such a way that the number of samples in some classes is significantly smaller than the num-ber of samples in other classes. This imbalance causes conventional classification methods to perform poorly in identifying minority samples.
The aim of this thesis is to conduct a comprehensive review and comparison of various methods for clas: ig imbalanced data and to propose a model for a more efficient solution to this problem. First, the fundamental concepts and the importance of balanced data are explained, and then the existing approaches to deal with this challenge are examined. These approaches include creating artificial balance between classes, modifying classification algorithms, and using hybrid methods.
The proposed model of this research, called DBC, is designed by combin- ing deep learning structures and simultaneously applying both data-driven and algorithm-driven approaches. With this model, it is possible to adjust the decision- making probability threshold, extract complex data features, and identify minority class samples with higher accuracy.
Subsequently, various classification models were implemented on three real- world imbalanced datasets, and their performance was evaluated using diverse metrics. The obtained results show that by using hybrid approaches along with appropriate data preprocessing, the performance of models in solving the imbal- anced data classification problem can be improved.
-
تعداد فصل ها
5
-
لينک به اين مدرک :