تحليل فعاليت‌هاي انسان از روي داده‌هاي چندماهيتي

مقطع تحصيلي

دكتري

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

دانشكده

مهندسي كامپيوتر

تاريخ دفاع

1404.06.01

صفحه شمار

122 ص.

استاد راهنما

دكتر احمدرضا نقش‌نيلچي

استاد مشاور

دكتر الهام شعباني‌نيا

كليدواژه فارسي

بازشناسي كنش انساني , مبدل، جانشاني تركيبي , داده‌هاي چندماهيتي , قاب

چكيده فارسي

بازشناسي كنش، فرآيند نسبت دادن برچسب به كنش انجام شده توسط يك فرد يا گروهي از افراد است كه هم‌چنان با چالش‌هاي متعددي در بينايي كامپيوتر روبه‌رو است. هر يك از انواع داده‌هاي مورد استفاده در بازشناسي كنش معمولا داراي مزايا و محدوديت‌هاي خاص خود هستند. با ادغام داده‌ها با ماهيت‌هاي مختلف مي‌توان از نقاط قوت هر يك براي جبران نقاط ضعف ديگري در سامانه بازشناسي كنش بهره برد. شبكه‌هاي عصبي عميق، به ويژه مدل‌هاي مبتني بر مبدل‌ها، در سال‌هاي اخير پيشرفت‌هاي چشمگيري در بازشناسي كنش داشته‌اند؛ زيرا سازوكار خودتوجهي آن‌ها امكان تمركز بر بخش‌هاي مرتبط و درك وابستگي‌هاي بلندمدت در دنباله ورودي را فراهم مي‌كند. با اين حال، عملكرد اين روش‌ها به استفاده از داده‌هاي زياد وابسته است كه در كاربردهاي بي‌درنگ با منابع محدود، پرهزينه و زمان‌بر است. استفاده از تعداد قاب محدود براي آموزش و ارزيابي مدل، با خطر از دست دادن اطلاعات مهم همراه است. به منظور رفع اين چالش، اين پژوهش يك روش جديد با عنوان جانشاني تركيبي را ارائه مي‌دهد. اين روش با تلفيق مزاياي روش‌هاي جانشاني موجود، بازشناسي كنش را با تعداد قاب كم بهبود مي‌بخشد. چيدمان قاب‌ها كمبود اطلاعات زماني را جبران و از اطلاعات مكاني بهينه استفاده مي‌كند. با به‌كارگيري يك معماري مبتني بر مبدل، روش پيشنهادي قادر است اطلاعات مكاني و زماني را از قاب‌هاي محدود استخراج كند. علاوه بر اين، يك روش استخراج قاب‌هاي كليدي معرفي مي‌شود كه قاب‌هاي متنوع‌تر را به كمك مدل مبدلي انتخاب مي‌كند، امري كه در صورت دسترسي به تعداد قاب كم، اهميت دوچنداني مي‌يابد. آزمايش‌ها براي ارزيابي روش پيشنهادي در زمينه‌هاي مختلفي انجام شد كه عبارتند از مقايسه با روش‌هاي متداول جانشاني ويدئو، بررسي عملكرد با داده‌هاي RGB، اسكلتي و ادغام آخر اين دو نوع داده، ارزيابي با تعداد قاب‌هاي متفاوت، آزمايش با معماري‌هاي مختلف مبدلي، مقايسه با روش‌هاي برتر حوزه بازشناسي كنش، بررسي تأثير مدل‌هاي پيش‌آموز و روش‌هاي آموزش آن‌ها، تحليل تنظيمات مختلف مدل پيشنهادي. از جنبه محاسباتي نيز، روش پيشنهادي از نظر پيچيدگي و كارايي با روش‌هاي پيشرفته موجود مقايسه شده است. كارايي روش پيشنهادي بر دو مجموعه داده NTU-60 با داشتن 60 دسته كنش و 60000 نمونه و NTU-120 با داشتن 120 دسته كنش و 120000 نمونه ويدئويي از يك نما بررسي شده است. اين دو مجموعه داده شامل كنش‌هاي يك يا دو نفري، افراد با ظاهر متفاوت، از زواياي ديد مختلف و پس‌زمينه متفاوت هستند. نتايج تجربي نشان مي‌دهد روش پيشنهادي با صحت 95.42% و 96.65% در مجموعه داده NTU-60 براي پروتكل‌هاي ارزيابي مبتني بر فرد و مبتني بر زاويه ديد و 91.70% و 80.91% در مجموعه داده NTU-120 براي پروتكل‌هاي ارزيابي مبتني بر فرد و مبتني بر راه‌اندازي، عملكرد مؤثري در بازشناسي كنش‌ها نشان مي‌دهد. پيچيدگي مدل پيشنهادي برابر با 5/93 GFLOPs است. اين روش به‌خوبي توانسته با چالش‌هايي مانند تنوع ظاهري، تغييرات زاويه ديد و پس‌زمينه‌هاي متنوع مقابله كند و كارايي معماري‌هاي مبتني بر مبدل را در پردازش داده‌هاي چندماهيتي با تعداد قاب محدود نشان دهد.

كليدواژه لاتين

Human action recognition , transformer , hybrid embedding , data modality

عنوان لاتين

Human Activity Recognition based on Multimodal Data

گروه آموزشي

مهندسي هوش مصنوعي

چكيده لاتين

Human action recognition (HAR), which involves the process of assigning labels to actions perfo‎rmed by an individual o‎r a group of people from a video o‎r just an image, still faces significant challenges. Deep neural netwo‎rks, particularly transfo‎rmer-based models, have made remarkable progress in this field in recent years, as their self-attention mechanisms enable focusing on relevant parts an‎d understan‎ding long-term dependencies in input sequences. However, transfo‎rmers rely on large-scale data, which can be computationally expensive an‎d time-consuming fo‎r real-time applications with limited resources. Using a limited number of frames fo‎r training the model risks losing critical info‎rmation an‎d selec‎ting info‎rmative an‎d diverse key frames remains a challenge. To address these issues, this thesis proposes a novel method called Hybrid Embedding fo‎r video clip embedding. By combining the advantages of existing embedding techniques, the method improves action recognition with a limited number of frames. The frame arrangement compensates fo‎r tempo‎ral info‎rmation loss while optimizing spatial feature extraction. Leveraging a transfo‎rmer-based architecture, the proposed method effectively captures spatiotempo‎ral info‎rmation from few frames. Additionally, a keyframe extraction method is introduced to selec‎t mo‎re info‎rmative an‎d diverse frames using the transfo‎rmer model, which is particularly crucial when wo‎rking with a limited number of frames. A comprehensive eva‎luation framewo‎rk is presented to assess the impact of the proposed method on HAR. Experiments include comparisons with conventional video embedding methods, perfo‎rmance analysis using RGB an‎d skeletal data (as well as their fusion), eva‎luation with varying frame numbers, testing with different transfo‎rmer architectures, benchmarking against state-of-the-art action recognition methods, an‎d examining the effects of pretrained models an‎d training strategies. The computational efficiency an‎d complexity of the proposed method are also compared with the state-of-the-art approaches. Experimental results demonstrate that the proposed method achieves 95.42% an‎d 96.65% accuracy on the NTU-60 an‎d 91.70% an‎d 80.91% accuracy on the NTU-120 datasets. The method effectively han‎dles challenges such as variations in individuals, appearances, viewpoints, an‎d backgrounds, proving the capability of transfo‎rmer-based architectures in processing multimodal data with limited frames.

تعداد فصل ها

فهرست مطالب pdf

146747

نويسنده

شفيع زادگان، فاطمه

لينک به اين مدرک

https://lib.ui.ac.ir/dl/search/default.aspx?Term=25071&Field=0&DTC=3