مقايسه روش‌هاي رده‌بندي داده‌هاي نامتوازن

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

علوم كامپيوتر- الگوريتم و نظريه محاسبه

دانشكده

رياضي و آمار

تاريخ دفاع

1404/06/26

صفحه شمار

103 ص .

استاد راهنما

جعفر الماسي زاده

استاد مشاور

فاطمه منصوري

كليدواژه فارسي

دسته‌بندي داده‌هاي نامتوازن , يادگيري ماشين , يادگيري عميق , پيش‌پردازش داده , روش‌هاي تركيبي , مدل DBC

چكيده فارسي

يكي از مسائل پايه‌اي و چالش‌برانگيز در حوزه‌ي يادگيري ماشين، مسئله‌ي دسته‌بندي داده‌هاي نامتوازن است. در بسياري از كاربردهاي تحليل داده‌ها نظير تشخيص تراكنش‌هاي تقلبي، تحليل سوانح رانندگي، شناسايي بيماري‌هاي نادر و سامانه‌هاي هشداردهنده، داده‌ها به گونه‌اي توزيع شده‌اند كه تعداد نمونه‌ها در برخي رده‌ها به‌طور قابل توجهي كمتر از تعداد نمونه‌ها در ساير رده‌ها است. اين عدم توازن موجب مي‌شود كه روش‌هاي متداول در دسته‌بندي در شناسايي نمونه‌هاي اقليت كارايي مطلوبي نداشته باشند. هدف اين پايان‌نامه، بررسي و مقايسه‌ي جامع روش‌هاي گوناگون در دسته‌بندي داده‌هاي نامتوازن و پيشنهاد يك مدل براي حل كاراتر اين مسئله است. در ابتداي مفاهيم پايه‌اي و اهميت متوازن بودن داده‌ها تشريح شده و سپس راهكارهاي موجود براي مواجهه با اين چالش مورد بررسي قرار گرفته‌اند. اين راهكارها شامل ايجاد توازن مصنوعي ميان داده‌ها، اصلاح الگوريتم‌هاي يادگيري و بهره‌گيري از روش‌هاي تركيبي هستند. مدل پيشنهادي اين پژوهش كه DBC ناميده شده است، با تلفيق ساختارهاي يادگيري عميق و به‌كارگيري همزمان رويكردهاي داده‌محور و الگوريتم‌محور طراحي شده است. با اين مدل مي‌توان آسان‌تر احتمال تصميم‌گيري را تنظيم كرد، ويژگي‌هاي پيچيده‌ي داده‌ها را استخراج كرد و نمونه‌هاي رده‌ي اقليت را با دقت بالاتري شناسايي نمود. در ادامه، مدل‌هاي دسته‌بندي مختلف بر روي مجموعه داده‌هاي واقعي نامتوازن پياده‌سازي و عملكرد آن‌ها با شاخص‌هاي متنوع ارزيابي شده است. نتايج به‌دست‌آمده نشان مي‌دهند كه با استفاده از رويكردهاي تركيبي همراه با پيش‌پردازش‌هاي مناسب داده‌ها مي‌توان عملكرد مدل‌هاي حل مسئله‌ي دسته‌بندي داده‌هاي نامتوازن را بهبود بخشيد.

كليدواژه لاتين

Imbalanced Data Classification , Machine Learning , Deep Learning , Data Preprocessing , Hybrid Methods , DBC Model

عنوان لاتين

A Comparison of Methods for Classifying Imbalanced Data

گروه آموزشي

رياضي كاربردي و علوم كامپيوتر

چكيده لاتين

One of the fundamental an‎d challenging issues in the field of machine learning is the problem of imbalanced data classification. In many data analysis appli-cations, such as fraudulent transaction detection, traffic accident analysis, rare disease identification, an‎d warning systems, the data is distributed in such a way that the number of samples in some classes is significantly smaller than the num-ber of samples in other classes. This imbalance causes conventional classification methods to perform poorly in identifying minority samples. The aim of this thesis is to conduct a comprehensive review an‎d comparison of various methods for clas: ig imbalanced data an‎d to propose a model for a more efficient solution to this problem. First, the fundamental concepts an‎d the importance of balanced data are explained, an‎d then the existing approaches to deal with this challenge are examined. These approaches include creating artificial balance between classes, modifying classification algorithms, an‎d using hybrid methods. The proposed model of this research, called DBC, is designed by combin- ing deep learning structures an‎d simultaneously applying both data-driven an‎d algorithm-driven approaches. With this model, it is possible to adjust the decision- making probability threshold, extract complex data features, an‎d identify minority class samples with higher accuracy. Subsequently, various classification models were implemented on three real- world imbalanced datasets, an‎d their performance was eva‎luated using diverse metrics. The obtained results show that by using hybrid approaches along with appropriate data preprocessing, the performance of models in solving the imbal- anced data classification problem can be improved.

تعداد فصل ها

فهرست مطالب pdf

147024

نويسنده

اميري، محمدامين

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25095&Field=0&DTC=3