يادگيري عميق با داده‌هاي محدود روي لبه: راهكاري براي بهبود سامانه‌هاي بازشناسي علائم ترافيكي

مقطع تحصيلي

دكتري

رشته تحصيلي

مهندسي برق - مخابرات سيستم

دانشكده

فني و مهندسي

تاريخ دفاع

1404/01/20

صفحه شمار

84 ص.

استاد راهنما

فرزاد پرورش , محمد فرزان صباحي

كليدواژه فارسي

يادگيري عميق با داده هاي محدود , يادگيري تك نمونه‌اي , يادگيري انتقالي , تقطير دانش , بازشناسي علائم ترافيكي , دستگاه هاي با منابع محدود

چكيده فارسي

با توسعه روزافزون فناوري‌هاي مبتني بر هوش مصنوعي و يادگيري عميق، سامانه‌هاي بازشناسي علائم ترافيكي به عنوان يكي از بخش‌هاي كليدي حمل‌ونقل هوشمند مورد توجه ويژه قرار گرفته‌اند. با اين حال، طراحي مدل‌هايي كه بتوانند در شرايط داده‌هاي محدود، در سناريوهاي خارج از توزيع و روي سخت‌افزارهاي با منابع محاسباتي محدود عملكرد مطلوبي ارائه دهند، همچنان يك چالش برجسته محسوب مي‌شود. پژوهش حاضر در راستاي پاسخ به اين چالش‌ها، به طراحي، پياده‌سازي و ارزيابي دو مدل جديد با نام‌هاي SeqNet و DiSeqNet پرداخته است كه با هدف ارتقاي تعميم‌پذيري، افزايش صحت، كاهش مصرف منابع و تسهيل استقرار عملياتي توسعه يافته‌اند. مدل SeqNet بر پايه اصول يادگيري تك نمونه‌اي و يادگيري انتقالي بنا شده و با بهره‌گيري از ساختار دنباله‌اي در چارچوب فرا يادگيري، قادر به استخراج ويژگي‌هاي غني و قابل تعميم از داده‌هاي آموزشي مي‌باشد. اين مدل با انتقال مؤثر دانش از يك فضاي نشاندني غني به دامنه‌هاي جديد و ناديده، موفق شده است عملكرد بسيار قابل توجهي به ثبت رساند. نتايج آزمايش‌ها نشان مي‌دهد كه مدل SeqNet در بازشناسي علائم ترافيكي با تنها يك نمونه آموزشي از هر كلاس، به صحت بالاي 93٪ دست يافته و در مواجهه با داده‌هاي خارج از توزيع نيز افت عملكرد ناچيزي تجربه كرده است. اين ميزان صحت، به طور متوسط بيش از 8٪ نسبت به روش‌هاي مرجع موجود بهبود داشته است كه نشان‌دهنده توانايي بالاي مدل در يادگيري سريع و تعميم به شرايط متفاوت مي‌باشد. در ادامه، به منظور پاسخگويي به نيازهاي عملياتي و استقرار بر روي دستگاه‌هاي با منابع سخت‌افزاري محدود، مدل DiSeqNet معرفي شده است. اين مدل نسخه‌اي فشرده از SeqNet با كمتر از 0٫5 ميليون پارامتر است كه از طريق به‌كارگيري استراتژي‌هاي تقطير دانش، آموزش چندمرحله‌اي و بهينه‌سازي معماري به گونه‌اي طراحي شده كه ضمن حفظ سطح بالاي دقت (حدود 83٪)، ميزان مصرف حافظه و توان پردازشي را به ميزان چشمگيري كاهش دهد. آزمايش‌هاي عملياتي روي سخت‌افزارهايي نظير Raspberry Pi نشان داده‌اند كه DiSeqNet عملكردي پايدار و سريع در محيط‌هاي واقعي دارد. مقايسه عملكرد مدل‌هاي پيشنهادي با روش‌هاي موجود در حوزه بازشناسي علائم ترافيكي، بيانگر برتري آشكار آن‌ها از حيث صحت، تعميم‌پذيري، سرعت يادگيري و كارايي پردازشي است. مدل SeqNet، به طور ويژه، توانسته است در سناريوهاي چالش‌برانگيز با داده‌هاي بسيار محدود و شرايط تغيير دامنه، عملكردي پايدار و دقيق ارائه كند كه اين ويژگي‌ها آن را به گزينه‌اي مناسب براي سامانه‌هاي كاربردي در شهرهاي هوشمند، سامانه‌هاي نظارتي محيطي و بسترهاي مبتني بر اينترنت اشيا تبديل مي‌كند. در مجموع، پژوهش حاضر با ارائه دو مدل SeqNet و DiSeqNet، چارچوبي كارآمد، سبك‌وزن و قابل استقرار براي بازشناسي علائم ترافيكي معرفي كرده است. اين چارچوب نه تنها بهبود چشمگيري در صحت و كارايي ايجاد نموده، بلكه راه را براي تحقيقات آتي در زمينه‌هاي توسعه سامانه‌هاي خودران، اينترنت اشياي صنعتي و بهبود تعميم‌پذيري مدل‌هاي يادگيري عميق در شرايط واقعي هموار ساخته است. از اين رو، نتايج حاصل از اين تحقيق مي‌تواند مبنايي مؤثر براي طراحي نسل جديدي از سامانه‌هاي هوشمند با كارايي بالا و منابع مصرفي بهينه باشد.

كليدواژه لاتين

Few-Shot Learning , One-Shot Learning , Transfer Learning , Knowledge Distillation , Traffic Sign Recognition , Resource-Constrained Devices

عنوان لاتين

Deep Learning with Limited Data at the Edge: A Solution for Improving Traffic Sign Recognition Systems

گروه آموزشي

مهندسي برق

چكيده لاتين

With the rapid advancement of artificial intelligence an‎d deep learning technologies, traffic sign recognition systems have become a key component of intelligent transpo‎rtation an‎d autonomous driving. However, designing models that can perfo‎rm robustly under limited data conditions, in out-of-distribution scenarios, an‎d on hardware with constrained computational resources remains a significant challenge. This research addresses these challenges by designing, implementing, an‎d eva‎luating two novel deep learning models, named SeqNet an‎d DiSeqNet, aimed at improving generalization, increasing accuracy, reducing resource consumption, an‎d facilitating practical deployment. The SeqNet model is built upon the principles of one-shot learning an‎d transfer learning an‎d leverages sequential structures within the meta-learning framewo‎rk to extract rich, generalizable features from training data. By effectively transferring knowledge from a rich embedding space to unseen domains, SeqNet achieves highly impressive perfo‎rmance. Experimental results show that SeqNet, with only one o‎r a few training samples per class, achieves an outstan‎ding recognition accuracy of over 93% on traffic sign datasets, while maintaining minimal perfo‎rmance degradation in out-of-distribution conditions. Compared to existing baseline methods, SeqNet demonstrates an average improvement of over 8%, reflecting its superio‎r capability fo‎r rapid learning an‎d generalization across diverse scenarios. To address practical deployment needs on resource-constrained devices, the DiSeqNet model is introduced as a compressed version of SeqNet with fewer than 0.5 million parameters. Through the application of knowledge distillation strategies, multi-stage training, an‎d architectural optimizations, DiSeqNet maintains a high accuracy level (around 85%) while significantly reducing memo‎ry an‎d computational requirements. Practical experiments on devices such as the Raspberry Pi confirm that DiSeqNet delivers stable an‎d efficient perfo‎rmance in real-wo‎rld environments. Comparative analysis with existing traffic sign recognition methods highlights the clear superio‎rity of the proposed models in terms of accuracy, generalization, learning speed, an‎d computational efficiency. In particular, SeqNet demonstrates stable an‎d precise perfo‎rmance under challenging conditions involving limited data an‎d domain shifts, making it a strong can‎didate fo‎r deployment in smart cities, environmental monito‎ring systems, an‎d Internet of Things (IoT) platfo‎rms. Overall, this study presents SeqNet an‎d DiSeqNet as an efficient, lightweight, an‎d deployable framewo‎rk fo‎r traffic sign recognition. The proposed models not only significantly enhance accuracy an‎d operational efficiency but also pave the way fo‎r future research on developing robust, high-perfo‎rmance intelligent systems designed fo‎r real-wo‎rld constraints.

تعداد فصل ها

فهرست مطالب pdf

138964

نويسنده

عبدي، نريمان

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=24849&Field=0&DTC=3