شماره ركورد
25071
شماره راهنما
COM3 146
عنوان
تحليل فعاليتهاي انسان از روي دادههاي چندماهيتي
مقطع تحصيلي
دكتري
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
دانشكده
مهندسي كامپيوتر
تاريخ دفاع
1404.06.01
صفحه شمار
122 ص.
استاد راهنما
دكتر احمدرضا نقشنيلچي
استاد مشاور
دكتر الهام شعبانينيا
كليدواژه فارسي
بازشناسي كنش انساني , مبدل، جانشاني تركيبي , دادههاي چندماهيتي , قاب
چكيده فارسي
بازشناسي كنش، فرآيند نسبت دادن برچسب به كنش انجام شده توسط يك فرد يا گروهي از افراد است كه همچنان با چالشهاي متعددي در بينايي كامپيوتر روبهرو است. هر يك از انواع دادههاي مورد استفاده در بازشناسي كنش معمولا داراي مزايا و محدوديتهاي خاص خود هستند. با ادغام دادهها با ماهيتهاي مختلف ميتوان از نقاط قوت هر يك براي جبران نقاط ضعف ديگري در سامانه بازشناسي كنش بهره برد. شبكههاي عصبي عميق، به ويژه مدلهاي مبتني بر مبدلها، در سالهاي اخير پيشرفتهاي چشمگيري در بازشناسي كنش داشتهاند؛ زيرا سازوكار خودتوجهي آنها امكان تمركز بر بخشهاي مرتبط و درك وابستگيهاي بلندمدت در دنباله ورودي را فراهم ميكند. با اين حال، عملكرد اين روشها به استفاده از دادههاي زياد وابسته است كه در كاربردهاي بيدرنگ با منابع محدود، پرهزينه و زمانبر است. استفاده از تعداد قاب محدود براي آموزش و ارزيابي مدل، با خطر از دست دادن اطلاعات مهم همراه است.
به منظور رفع اين چالش، اين پژوهش يك روش جديد با عنوان جانشاني تركيبي را ارائه ميدهد. اين روش با تلفيق مزاياي روشهاي جانشاني موجود، بازشناسي كنش را با تعداد قاب كم بهبود ميبخشد. چيدمان قابها كمبود اطلاعات زماني را جبران و از اطلاعات مكاني بهينه استفاده ميكند. با بهكارگيري يك معماري مبتني بر مبدل، روش پيشنهادي قادر است اطلاعات مكاني و زماني را از قابهاي محدود استخراج كند. علاوه بر اين، يك روش استخراج قابهاي كليدي معرفي ميشود كه قابهاي متنوعتر را به كمك مدل مبدلي انتخاب ميكند، امري كه در صورت دسترسي به تعداد قاب كم، اهميت دوچنداني مييابد. آزمايشها براي ارزيابي روش پيشنهادي در زمينههاي مختلفي انجام شد كه عبارتند از مقايسه با روشهاي متداول جانشاني ويدئو، بررسي عملكرد با دادههاي RGB، اسكلتي و ادغام آخر اين دو نوع داده، ارزيابي با تعداد قابهاي متفاوت، آزمايش با معماريهاي مختلف مبدلي، مقايسه با روشهاي برتر حوزه بازشناسي كنش، بررسي تأثير مدلهاي پيشآموز و روشهاي آموزش آنها، تحليل تنظيمات مختلف مدل پيشنهادي. از جنبه محاسباتي نيز، روش پيشنهادي از نظر پيچيدگي و كارايي با روشهاي پيشرفته موجود مقايسه شده است.
كارايي روش پيشنهادي بر دو مجموعه داده NTU-60 با داشتن 60 دسته كنش و 60000 نمونه و NTU-120 با داشتن 120 دسته كنش و 120000 نمونه ويدئويي از يك نما بررسي شده است. اين دو مجموعه داده شامل كنشهاي يك يا دو نفري، افراد با ظاهر متفاوت، از زواياي ديد مختلف و پسزمينه متفاوت هستند. نتايج تجربي نشان ميدهد روش پيشنهادي با صحت 95.42% و 96.65% در مجموعه داده NTU-60 براي پروتكلهاي ارزيابي مبتني بر فرد و مبتني بر زاويه ديد و 91.70% و 80.91% در مجموعه داده NTU-120 براي پروتكلهاي ارزيابي مبتني بر فرد و مبتني بر راهاندازي، عملكرد مؤثري در بازشناسي كنشها نشان ميدهد. پيچيدگي مدل پيشنهادي برابر با 5/93 GFLOPs است. اين روش بهخوبي توانسته با چالشهايي مانند تنوع ظاهري، تغييرات زاويه ديد و پسزمينههاي متنوع مقابله كند و كارايي معماريهاي مبتني بر مبدل را در پردازش دادههاي چندماهيتي با تعداد قاب محدود نشان دهد.
كليدواژه لاتين
Human action recognition , transformer , hybrid embedding , data modality
عنوان لاتين
Human Activity Recognition based on Multimodal Data
گروه آموزشي
مهندسي هوش مصنوعي
چكيده لاتين
Human action recognition (HAR), which involves the process of assigning labels to actions performed by an individual or a group of people from a video or just an image, still faces significant challenges. Deep neural networks, particularly transformer-based models, have made remarkable progress in this field in recent years, as their self-attention mechanisms enable focusing on relevant parts and understanding long-term dependencies in input sequences. However, transformers rely on large-scale data, which can be computationally expensive and time-consuming for real-time applications with limited resources. Using a limited number of frames for training the model risks losing critical information and selecting informative and diverse key frames remains a challenge.
To address these issues, this thesis proposes a novel method called Hybrid Embedding for video clip embedding. By combining the advantages of existing embedding techniques, the method improves action recognition with a limited number of frames. The frame arrangement compensates for temporal information loss while optimizing spatial feature extraction. Leveraging a transformer-based architecture, the proposed method effectively captures spatiotemporal information from few frames. Additionally, a keyframe extraction method is introduced to select more informative and diverse frames using the transformer model, which is particularly crucial when working with a limited number of frames. A comprehensive evaluation framework is presented to assess the impact of the proposed method on HAR. Experiments include comparisons with conventional video embedding methods, performance analysis using RGB and skeletal data (as well as their fusion), evaluation with varying frame numbers, testing with different transformer architectures, benchmarking against state-of-the-art action recognition methods, and examining the effects of pretrained models and training strategies. The computational efficiency and complexity of the proposed method are also compared with the state-of-the-art approaches.
Experimental results demonstrate that the proposed method achieves 95.42% and 96.65% accuracy on the NTU-60 and 91.70% and 80.91% accuracy on the NTU-120 datasets. The method effectively handles challenges such as variations in individuals, appearances, viewpoints, and backgrounds, proving the capability of transformer-based architectures in processing multimodal data with limited frames.
تعداد فصل ها
5
فهرست مطالب pdf
146747
نويسنده