شماره ركورد
25461
شماره راهنما
ELE2 514
عنوان
ادغام تصاوير مرئي و مادون قرمز، هدايتشده با قطعهبندي سراسرنما براي بهبود عملكرد تشخيص اشياء
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق - سيستم هاي الكترونيك ديجيتال
دانشكده
فني و مهندسي
تاريخ دفاع
114 ص.
صفحه شمار
1404/07/23
استاد راهنما
دكتر پيمان معلم
كليدواژه فارسي
ادغام تصاوير , تصوير مرئي , تصوير مادون قرمز، , قطعهبندي نمونهاي، , يادگيري عميق , تشخيص اشياء
چكيده فارسي
چكيده
تجزيه و تحليل تصاوير مرئي در بسياري از كاربردهاي بينايي كامپيوتر نقشي گسترده دارد، اما اين تصاوير ذاتاً به باند طيفي خود محدود هستند. اين محدوديت بهويژه در شرايط نوري نامطلوب آشكار ميشود، جايي كه مشاهده جزئيات ارزشمند دشوار بوده و تشخيص اشياء چالشبرانگيز است. در مقابل، اشياء در محيط طبيعي امواج الكترومغناطيسي را در فركانسهاي مختلف ساطع ميكنند كه بهعنوان تابش حرارتي شناخته ميشود و براي چشم انسان قابل رؤيت نيست. طيف مادونقرمز، محدوده وسيعتري نسبت به طيف مرئي پوشش ميدهد و حساسيت كمتري به شرايط محيطي و منابع نوري دارد. ازاينرو، تصاوير مادونقرمز ظرفيت بالايي در مديريت شرايط نوري نامطلوب دارند. بااينحال، اين تصاوير در مقايسه با تصاوير مرئي از وضوح كمتر و فقدان جزئيات رنگي و بافت رنج ميبرند. ادغام تصاوير مرئي و مادونقرمز راهكاري مؤثر براي توليد تصويري تركيبي است كه هم از جزئيات و وضوح بالاي تصاوير مرئي بهرهمند باشد و هم از قابليتهاي طيفي تصاوير مادونقرمز در نمايش نواحي هدف استفاده كند. در اين پژوهش، رويكردي مبتني بر يادگيري عميق در سطح ويژگي براي ادغام اين دو نوع تصوير ارائه ميشود كه در راستاي رفع چالشهاي مربوط به افزونگي اطلاعات، اجراي بلادرنگ و درك معنايي تلاش ميكند. روشهاي موجود در حوزه ادغام تصاوير مرئي و مادون قرمز، عمدتاً بر روي ويژگيهاي آماري و كيفيت بصري تصاوير ادغامشده تأكيد ميكنند و به كاربرد اين تصاوير در وظايف سطح بالاي بينايي كامپيوتر (مثل تشخيص و رديابي اشياء، درك صحنه و...) توجه ندارند. اين موجب از دست رفتن اطلاعات معنايي در تصوير ادغامشده ميشود. ايده اصلي اين رويكرد، تركيب يك شبكه قطعهبندي نمونهاي با يك شبكه ادغام تصاوير مرئي و مادون قرمز است. هدف از اين فرايند، القاي اطلاعات معنايي در سطح شيء در تصوير ادغامشده به هدف استفاده آن در وظايف بينايي سطح بالا مثل تشخيص اشياء و در عين حال امكان اجراي بلادرنگ شبكه ادغام است.
در چارچوب روش پيشنهادي، يك معماري مبتني بر شبكههاي كانولوشني عميق طراحي شده است كه در آن تصاوير مرئي و مادونقرمز بهصورت موازي و در دو شاخهي مجزا پردازش ميشوند. پس از استخراج ويژگيهاي سطح بالا در هر شاخه، اين ويژگيها ابتدا با مكانيزم توجه به خود تقويت شده و سپس از طريق مكانيزم توجه متقابل بينمداليتهاي با يكديگر ادغام ميشوند. ويژگيهاي ادغامشده بازسازي شده و به يك شبكهي قطعهبندي نمونهاي منتقل ميشوند؛ بدينترتيب خطاهاي ناشي از پيشبيني مرز و ناحيه اشياء بهصورت بازگشتي به شبكه ادغام منتقل ميشود و در حكم سيگنال آموزشي عمل ميكند. اين سازوكار نهتنها دقت شناسايي مرزها را ارتقا ميدهد، بلكه شبكه ادغام را وادار ميسازد تا تركيب بهتري از ويژگيهاي طيفي و معنايي در سطح شيء بياموزد. نتايج آزمايشها نشان ميدهد كه روش پيشنهادي در وظيفهي تشخيص اشياء نسبت به ساير رويكردها بهبود معناداري داشته و در شاخصهاي دقت، از جمله معيارهاي رايج مبتني بر IoU، بالاترين عملكرد را به دست آورده است. اين برتري، بيانگر توانايي معماري ارائهشده در ادغام اطلاعات طيفي و معنايي و بهبود قابل توجه آن در وظايف سطح بالاي بينايي ماشين است.
كليدواژهها: ادغام تصاوير، تصوير مرئي، تصوير مادون قرمز، قطعهبندي نمونهاي، يادگيري عميق، تشخيص اشياء
كليدواژه لاتين
Image Fusion , Visible Image , Infrared Image , Instance Segmentation, , Deep Learning , Object Detection
عنوان لاتين
Panoptic Segmentation-Guided Fusion of Visible and Infrared Images for Improved Object Detection Performance
گروه آموزشي
مهندسي برق
چكيده لاتين
Abstract
Visible image analysis plays a crucial role in daily life and industrial applications, yet such images are inherently constrained by their limited spectral range. These limitations become particularly evident under poor illumination conditions, where capturing fine details and recognizing objects is challenging. In contrast, objects in natural environments emit electromagnetic radiation across different frequencies, known as thermal radiation, which is invisible to the human eye. Infrared imaging covers a broader spectral range than visible imaging and is less sensitive to adverse environmental conditions such as low light, fog, or occlusion. Consequently, infrared images are highly valuable in managing unfavorable lighting conditions. However, they suffer from lower spatial resolution and lack of color and texture details compared to visible images. Fusing visible and infrared images provides an effective solution to generate composite representations that combine the high spatial detail of visible images with the spectral advantages of infrared images. This research proposes a feature-level deep learning–based approach for fusing visible and infrared images, addressing challenges related to redundant information and semantic understanding. Most existing methods emphasize statistical features and visual quality of fused images while overlooking their application in high-level computer vision tasks such as object detection, tracking, and scene understanding, often leading to loss of semantic information. The key idea of the proposed framework is to integrate an instance segmentation network with an image fusion network, thereby embedding object-level semantic information into the fused image to enhance its utility for high-level vision tasks, while ensuring that the fusion process can be executed in real time.
The proposed architecture leverages deep convolutional neural networks, where visible and infrared images are processed in parallel through two separate branches. High-level features extracted in each branch are first enhanced by self-attention and then fused through cross-modal attention mechanisms. The fused features are reconstructed and fed into an instance segmentation network, where segmentation errors in object boundaries and regions are recursively propagated back to the fusion network as supervisory signals. This mechanism not only improves boundary accuracy but also compels the fusion network to learn more effective combinations of spectral and semantic features at the object level. For training and evaluation, the Tokyo Multi-Spectral dataset was employed, and dedicated instance segmentation labels were generated to provide precise semantic supervision. Experimental results demonstrate that the proposed method significantly outperforms existing approaches in object detection tasks, achieving superior accuracy in metrics such as Intersection over union (IoU). These findings highlight the effectiveness of the proposed architecture in integrating spectral and semantic information, yielding substantial improvements in high-level computer vision tasks.
Keywords: Image Fusion; Visible Image, Infrared Image, Instance Segmentation, Deep Learning, Object Detection.
تعداد فصل ها
5 فصل
فهرست مطالب pdf
151662
نويسنده