تشابه معنايي ميان‌زباني و چندوجهي در دامنه‌ي محصول‌هاي الكترونيكي با استفاده از يادگيري بازنمايي عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

26/06/1404

صفحه شمار

122 ص.

استاد راهنما

احمد براآني دستجردي

كليدواژه فارسي

تشابه معنايي , كلان‌داده , شناسايي موجوديت , برابرسازي موجوديت , يادگيري تقابلي , يادگيري خودنظارتي , يادگيري برنامه‌درسي

چكيده فارسي

سنجش تشابه معنايي، به‌ويژه در بسترهاي چندوجهي و ميان‌زباني، يكي از چالش‌هاي بنيادين در هوش مصنوعي است. يك كاربرد حياتي اين مفهوم، شناسايي موجوديت در سيستم‌هاي كلان‌داده است كه طي آن، ركوردهايي كه به يك موجوديت واقعي يكسان اشاره دارند، شناسايي مي‌شوند. اين فرآيند، نيازمند ارزيابي دقيق تشابه معنايي ميان پروفايل‌هاي متنوع موجوديت‌ها است. اين پژوهش، به مسئله‌ي تشابه معنايي در دامنه‌ي چالش‌برانگيز محصول‌هاي الكترونيكي مي‌پردازد. بدين‌منظور، مجموعه داده و محك نويني با نام «ElecNet» معرفي مي‌شود كه با تركيب زبان‌هاي فارسي و انگليسي و استفاده از داده‌هاي متني و تصويري، چالش‌هاي جديدي را در اين حوزه مطرح مي‌كند. براي رويارويي با اين چالش‌ها، چارچوب چندوجهي نويني با نام «UnifiedER» ارائه مي‌شود كه شناسايي موجوديت را به‌عنوان يك فرآيند ارزيابي تشابه دومرحله‌اي بلوك‌بندي و برابرسازي با رويكرد كِي-‌نزديك‌ترين همسايگان فرمول‌بندي مي‌كند و بدين‌شكل بر كاستي‌هاي چارچوب‌هاي پيشين كه معمولا فقط بر يك مرحله تمركز داشتند يا امكان بهره‌وري از چند برابرساز را نداشتند، غلبه مي‌كند. در نهايت، دو راهبرد ارائه مي‌گردد: پيش‌آموزش خودنظارتي و دقيق‌سازي تقابلي كه از افزونش‌هاي سفارشي براي تصويرهاي محصول‌ها بهره برده و يادگيري برنامه‌درسي را به كار مي‌گيرد. مدل گروهي نهايي، كه بر پايه‌ي اين راهبردها ساخته شده است، در سنجش تشابه و شناسايي موجوديت‌ها در مجموعه داده‌ي ElecNet، عملكردي برتر نسبت به بهترين خط‌پايه‌هاي شناخته‌شده در هر بخش نشان مي‌دهد، كه نتايج به‌دست آمده به شرح مقابل است: شش درصد عملكرد بهتر در معيار ميانگين بازيابي در رتبه‌ي ده پروفايل منطبق (mR@10) براي مرحله‌ي بلوك‌بندي متني، 21 درصد عملكرد بهتر در معيار امتياز F1 در برابرسازي زوجي تصويري و چهار درصد عملكرد بهتر در معيار ميانگين دقت متوسط در رتبه‌ي ده پروفايل منطبق (mAP@10) در بخش شناسايي موجوديت. علاوه‌بر اين، ارزيابي‌هاي كيفي بر يكپارچه‌سازي داده‌هاي واقعي 250 فروشگاه برخط كه توسط موتور جستجوي آيسي تجميع شده‌اند، صحت و كارايي رويكرد ارائه‌شده را تأييد مي‌كنند.

كليدواژه لاتين

Semantic Similarity , Big Data , Entity Resolution , Entity Matching , Contrastive Learning , Self-Supervised Learning , Curriculum Learning

عنوان لاتين

Cross-lingual an‎d Multi-modal Semantic Similarity for Electronic Products using Deep Representation Learning

گروه آموزشي

مهندسي نرم افزار

چكيده لاتين

Semantic similarity assessment, particularly in multi-modal an‎d cross-lingual contexts, poses a fundamental challenge in artificial intelligence. This concept finds a critical application in Entity Resolution (ER) within Big Data systems—the task of identifying reco‎rds that refer to the same real-wo‎rld entity. This process necessitates an accurate assessment of semantic similarity among diverse entity profiles. This research addresses the problem of semantic similarity in the challenging domain of electronic products. To this end, we introduce "ElecNet," a novel dataset an‎d benchmark that presents new challenges in the field by combining Persian an‎d English languages with both textual an‎d visual data. To address these challenges, we propose "UnifiedER," a novel multi-modal framewo‎rk that fo‎rmulates ER as a two-stage, k-Nearest Neighbo‎r based similarity assessment pipeline of blocking an‎d matching. This overcomes the limitations of prio‎r framewo‎rks, which typically focused on a single stage o‎r lacked suppo‎rt fo‎r ensemble matching. Finally, we propose two key strategies: self-supervised pre-training an‎d contrastive fine-tuning, which leverage custom augmentations fo‎r product images an‎d employ curriculum learning. The final ensemble model, built upon these strategies, demonstrates superio‎r perfo‎rmance compared to state-of-the-art baselines on the ElecNet dataset. The results show a 6% improvement in Mean Recall at 10 (mR@10) fo‎r textual blocking, a 21% improvement in F1-sco‎re fo‎r visual pairwise matching, an‎d a 4% improvement in Mean Average Precision at 10 (mAP@10) fo‎r the end-to-end Entity Resolution task. Furthermo‎re, qualitative eva‎luations on the real-wo‎rld data integration of 250 online sto‎res, aggregated by the Isee Search engine, confirm the validity an‎d efficacy of the proposed approach.

تعداد فصل ها

استاد راهنماي خارج از دانشگاه

محمدرضا شمس

فهرست مطالب pdf

146423

نويسنده

اشتهاري پور، شايان

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25044&Field=0&DTC=3