برچسب‌گذاري نظرات فارسي با استفاده از يادگيري فعال و نيمه‌نظارت شده جهت پيش‌بيني ريزش مشتريان

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي فناوري اطلاعات - تجارت الكترونيكي

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1404/02/28

صفحه شمار

105 ص.

استاد راهنما

فخرالدين نوربهبهاني

كليدواژه فارسي

پيش‌بيني ريزش مشتريان , برچسب‌گذاري نظرات فارسي , يادگيري فعال , هوش مصنوعي قابل توضيح , يادگيري نيمه‌نظارت شده

چكيده فارسي

امروزه پيش‌بيني ريزش مشتريان در تمام كسب‌وكارها امري مهم و ضروري تلقي مي‌شود تا سازمان‌ها و شركت‌ها با تشخيص به موقع مشتريان درحال ريزش، مانع خروج آنان شوند. درحالي كه تا كنون كارهاي پرشماري در زمينه پيش‌بيني ريزش مشتريان صورت گرفته ‌است اما اين كارها اكثرا با استفاده از داده‌هاي ساختاريافته و براي صنعت مخابرات صورت گرفته‌اند و از داده‌هاي متني، كم‌تر استفاده شده ‌است. همچنين در حوزه‌‌ي زبان فارسي كارهاي بسيار محدودي در زمينه‌ي پيش‌بيني ريزش مشتريان با استفاده از داده‌هاي متني صورت گرفته‌ است كه در اين كارها برچسب‌گذاري نظرات تماما به وسيله‌ي نيروي انساني صورت گرفته ‌است. با توجه به اينكه در حال حاضر داده‌هاي متنيِ برچسب‌دارِ گسترده‌اي براي پيش‌بيني ريزش مشتريان وجود ندارند و داده‌هاي متني فارسي غالبا براي تحليل احساسات و پيش‌بيني رضايت مشتريان برچسب‌گذاري شده‌اند، از اين رو در اين پژوهش سعي شده ‌است كه اين كمبود جبران شود و روشي به كار گرفته شود تا با حداقل استفاده از نيروي انساني، تعداد داده‌هاي متني زيادي براي پيش‌بيني ريزش مشتريان برچسب‌گذاري شوند. براي اين امر تصميم گرفته شد كه برچسب‌گذاري نظرات فارسي با كمك يادگيري فعال و يادگيري نيمه‌نظارت شده انجام شود. روش پيشنهادي اين پژوهش به اين صورت است كه ابتدا يك مجموعه داده‌ي برچسب‌دار با برچسب‌گذاري به وسيله‌ي 3 خبره تهيه مي‌شود و يك مدل مبتني بر يادگيري عميق روي آن آموزش داده مي‌شود. سپس با استفاده از يادگيري فعال، تعدادي نمونه از نظرات بدون برچسب سايت ديجي‌كالا انتخاب شده و توسط خبرگان با كمك هوش مصنوعي قابل توضيح برچسب‌گذاري مي‌شوند و در آخر باقي نظرات بدون برچسبي كه از سايت ديجي‌كالا گرفته شده‌اند، با كمك يادگيري نيمه‌نظارت شده برچسب‌گذاري مي‌شوند. گفتني است كه براي يادگيري نيمه‌نظارت شده از سه روش «خودآموزي»، «انتشار برچسب» و «تركيبي» كه تركيب اين دو روش است استفاده مي‌شود. نتايج گوياي آن است كه استفاده از يادگيري فعال و يادگيري نيمه‌نظارت شده (روش «خودآموزي»)، روش كارآمدي براي برچسب‌گذاري نظرات فارسي جهت پيش‌بيني ريزش مشتريان مي‌باشد زيرا علاوه بر به حداقل رساندن استفاده از نيروي انساني و كاهش هزينه، معيارهاي ارزيابي را نسبت به قبل از اجراي اين روش تا چند درصد افزايش مي‌دهد و باعث بهبود عملكرد مدل مي‌شود. قابل ذكر است كه دستاوردهاي اين پايان‌نامه براي هر كسب‌وكاري قابل استفاده است زيرا اين پژوهش براي برند خاصي انجام نشده‌ است و كليه محصولات فروشگاه‌هاي برخط، مورد استفاده اين پژوهش قرار گرفته ‌است.

كليدواژه لاتين

Customer churn prediction , Labeling Persian reviews , Active learning , Explainable artificial intelligence , Semi-supervised learning

عنوان لاتين

Labeling Persian Reviews using Active an‎d Semi-supervised Learning to Customer Churn Prediction

گروه آموزشي

مهندسي فناوري اطلاعات

چكيده لاتين

Nowadays, predicting customer churn in all businesses is considered an important an‎d necessary task so that organizations an‎d companies can identify at-risk customers in a timely manner an‎d prevent their departure. While numerous efforts have been made in the field of customer churn prediction, most of these studies have been conducted using structured data an‎d mainly for the telecommunications industry, with limited use of textual data. Additionally, in the Persian language domain, very few studies have been conducted on customer churn prediction using textual data an‎d in these studies, the labeling of reviews has been entirely performed manually. Given the current lack of extensive labeled textual data for customer churn prediction an‎d the fact that Persian textual data is mainly labeled for sentiment analysis an‎d customer satisfaction prediction, this research aims to address this gap by employing a method that minimizes human effort to label a large volume of textual data for customer churn prediction. To achieve this, it was decided to label Persian reviews using active learning an‎d semi-supervised learning. The proposed method of this study is as follows: initially, a labeled dataset is created with the assistance of three experts, an‎d a deep learning-based model is trained on this dataset. Subsequently, using active learning, a number of unlabeled reviews from the Digikala website are selec‎ted an‎d labeled by three experts with the help of explainable artificial intelligence. Finally, the remaining unlabeled reviews obtained from the Digikala website are labeled using semi-supervised learning. It is worth mentioning that for semi-supervised learning, three methods are used: "self-training," "label propagation," an‎d a "hybrid" method that combines these two approaches. The results indicate that using active learning an‎d semi-supervised learning ("self-training" method) is an efficient approach for labeling Persian reviews for customer churn prediction. This approach not only minimizes human effort an‎d reduces costs but also improves eva‎luation metrics by several percentage points an‎d enhances model performance compared to before implementing this method. It is noteworthy that the findings of this research are applicable to any business, as this study was not conducted for a specific bran‎d, an‎d all products of online stores were included in the research.

تعداد فصل ها

فهرست مطالب pdf

132962

نويسنده

باجغلي، سروش

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=24722&Field=0&DTC=3