تشخيص مانع در تصاوير ويديوئي براي كمك به افراد كم بينا

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1403/06/19

صفحه شمار

91 ص.

استاد راهنما

حسين ماهوش محمدي , احمدرضا نقش نيلچي

كليدواژه فارسي

يادگيري عميق , بخش‌بندي معنايي , تخمين عمق , شبكه‌هاي پيچشي , تقطير دانش

چكيده فارسي

با توجه به افزايش جمعيت نابينايان و نياز به بهبود كيفيت زندگي و استقلال آن‌ها، تشخيص موانع در محيط‌هاي شهري و عمومي به عنوان يك چالش جدي مطرح است. نابينايان به دليل عدم توانايي در ديدن موانع، با خطرات و مشكلات زيادي مواجه هستند كه مي‌تواند منجر به حوادث ناگوار و كاهش اعتماد به نفس آن‌ها شود. تشخيص موانع به‌ويژه در فضاهاي شلوغ و متنوع مانند پياده‌روها، ايستگاه‌هاي حمل و نقل عمومي و مراكز خريد، نيازمند راهكارهاي مؤثر و قابل‌اعتماد است. فناوري‌هاي موجود، از جمله عصاهاي سفيد، سگ‌هاي آموزش ديده و سيستم‌هاي هشداردهنده، هرچند كه بهبودهايي را به ارمغان آورده‌اند، اما هنوز هم در بسياري از موارد ناكافي و محدود هستند. براي مثال عصاهاي هوشمند، ليزر و سنسورهاي آلتراسونيك محدوديت تشخيص تا فاصله معين دارند همچنين هزينه آموزش سگ‌هاي نگهبان بسيار زياد است. در اين پژوهش به طراحي و پياده‌سازي يك سيستم كمك راهنما براي تشخيص موانع به منظور كمك به افراد نابينا هنگام راه رفتن در پياده‌رو پرداخته شده است. اين سيستم با بهره‌گيري از تكنيك‌هاي يادگيري عميق و پردازش تصوير، به صورت بلادرنگ عمل مي‌كند و قادر است موانع موجود در مسير را شناسايي و تحليل كند. بلادرنگ بودن در اين پژوهش به معناي توانايي استنتاج از مدل با سرعت 15 فريم بر ثانيه به بالا روي سخت افزارهاي است. روش‌هاي استفاده شده در اين پژوهش شامل بخش‌بندي ناحيه‌ ايمن براي تعيين مسيرهاي بدون مانع و تخمين عمق براي ارزيابي فاصله تخميني تا موانع است. بخش‌بندي ناحيه‌ي ‌ايمن به سيستم امكان مي‌دهد تا مسيرهاي امن براي حركت را شناسايي و از برخورد افراد نابينا با موانع جلوگيري كند. همچنين، تخمين عمق به كمك شبكه‌هاي عصبي عميق، اطلاعات دقيقي درباره فاصله موانع تا فرد نابينا فراهم مي‌كند. سيستم پيشنهادي با استفاده از دوربين‌هاي تك چشمي و تكنيك‌هاي تركيبي يادگيري عميق و پردازش تصوير، توانسته است دقت بالايي در شناسايي و تفكيك موانع مختلف از جمله اشياء ثابت و متحرك به دست آورد. نتايج ارزيابي‌هاي انجام شده نشان مي‌دهد كه اين سيستم مي‌تواند به طور مؤثر و قابل اعتمادي در محيط‌هاي شهري عمل نمايد و به بهبود استقلال و ايمني حركت افراد نابينا كمك كند. همچنين در اين پژوهش به چالش‌هاي موجود در پياده‌سازي سيستم‌هاي تشخيص مانع پرداخته شده‌است و راهكارهايي براي بهبود عملكرد و دقت سيستم ارائه داده است. از جمله اين چالش‌ها مي‌توان به تغييرات نور محيط، تنوع موانع و پيچيدگي محيط‌هاي شهري اشاره كرد. به منظور حل اين مشكلات، از تكنيك‌هاي پيش‌پردازش تصوير و داده افزايي با انواع مختلف نويز به هنگام آموزش مدل و بهينه‌سازي‌ پس از آموزش براي بهبود سرعت تشخيص آن استفاده شده است. همچنين با توجه به نبود مجموعه داده قابل قبول براي اين مسئله، به جمع‌آوري و برچسب گذاري يك مجموعه داده در ابعاد كم نيز پرداخته شده است.

كليدواژه لاتين

Deep Learning , Semantic Segmentation , Depth Estimation , Convolutional Networks , Knowledge Distilation

عنوان لاتين

Obstacle detection in video for helping the blind

گروه آموزشي

مهندسي هوش مصنوعي

چكيده لاتين

In this research, the design and implementation of an advanced system for obstacle de-tection to assist blind individuals while walking on sidewalks has been addressed. Utiliz-ing deep learning techniques and image processing, this system operates in real-time and is capable of identifying and analyzing obstacles in the path. The methods used in this research include safe area segmentation for determining obstacle-free paths and depth estimation for assessing the estimated distance to obstacles. Safe area segmenta-tion enables the system to identify safe paths for movement and prevent blind individu-als from colliding with obstacles. Additionally, depth estimation using deep neural net-works provides accurate information about the distance of obstacles from the blind in-dividual. The proposed system, using monocular cameras and a combination of deep learning and image processing techniques, has achieved high accuracy in identifying and distinguishing various obstacles, including both stationary and moving objects. eva‎luation results indicate that this system can effectively and reliably operate in urban environments, contributing to the improvement of the independence and safety of blind individualsʹ movement. This research also addresses the challenges in implementing obstacle detection systems and offers solutions to enhance the systemʹs performance and accuracy. These challenges include environmental light variations, obstacle diversi-ty, and the complexity of urban environments. To overcome these issues, image prepro-cessing techniques and data augmentation with various types of noise during model training and post-training optimizations for improving detection speed have been uti-lized. Additionally, due to the lack of an acceptable dataset for this problem, a small-scale dataset has been collected and labeled. In conclusion, this thesis demonstrates that the use of modern technologies in artificial intelligence and image processing can sig-nificantly enhance the quality of life for blind individuals and pave the way for the de-velopment of more intelligent systems in this field.

تعداد فصل ها

فهرست مطالب pdf

119286

نويسنده

فخار، محمدياسين

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=24290&Field=0&DTC=3