-
شماره ركورد
25534
-
شماره راهنما
ELE2 517
-
عنوان
معماري برخط تشخيص و رديابي چندشئ «سر انسان» با تأكيد بر مقياسپذيري و پردازش چندجرياني در DeepStream
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق - سيستم هاي الكترونيك ديجيتال
-
دانشكده
فني و مهندسي
-
تاريخ دفاع
1404/10/10
-
صفحه شمار
113 ص.
-
استاد راهنما
دكتر پيمان معلم
-
كليدواژه فارسي
رديابي چندشئ , ، شبكههاي سيامي , ،YOLOv8m-Pose , خطلوله، , DeepStream، , بازشناسي چهره
-
چكيده فارسي
چكيده
سامانههاي نظارت تصويري و تحليل تردد در مقياس صنعتي نيازمند رديابي پايدار هويت افراد در دهها دوربين، بهصورت برخط و با تأخير كم هستند. رديابي مبتني بر چهره در چنين شرايطي بهدليل غيرصلب بودن چهره و اثر چرخش، انسداد و تغييرات نور، اغلب به تغيير مكرر شناسهها و افت كارايي منجر ميشود.
در اين پاياننامه رويكردي عملياتي براي رديابي چندشئاي در محيطهاي چنددوربينه پيشنهاد ميشود كه در آن، بهجاي رديابي مستقيم چهره، «سر» بهعنوان هدف رديابي انتخاب شده و بازشناسي چهره در گام بعدي روي خروجيهاي پايدارتر انجام ميگيرد. ابتدا طيفي از رديابهاي چندشئاي مبتني بر شبكههاي سيامي و رديابهاي مبتني بر تشخيص، همراه با بسترهاي سختافزاري و نرمافزاري (OpenCV, GStreamer و DeepStream) از نظر دقت، پيچيدگي و مقياسپذيري بررسي ميشود و بر اساس الزامات كارفرما، معماري مبتني بر تشخيص بر بستر DeepStream و GPUهاي روميزي برگزيده ميشود. سپس يك خطلوله چنددوربينه براي تشخيص و رديابي سر و استخراج نقاطكليدي چهره طراحي و پيادهسازي ميگردد كه در آن، يك آشكارساز YOLOv8m Pose روي مجموعهدادهاي جديد شامل 34٬579 تصوير آموزش ميشود؛ اين مجموعهداده از تركيب CrowdHuman و WIDER FACE ساخته شده و براي هر سر، جعبه محاطي و حداكثر پنج نقطهكليدي چهره را فراهم ميكند. آشكارساز پيشنهادي در اين مجموعهداده به mAP50 برابر 70٫6٪ و mAP50 95 برابر 43٫1٪ براي جعبههاي سر و به mAP50 برابر ٪34٫3 و mAP50 95 برابر 32٫3٪ براي نقاطكليدي چهره دست مييابد. ارزيابي كارايي نشان ميدهد كه خطلوله پيشنهادي در وضوح p1080و نرخ 15 فريمبرثانيه قادر است روي يك GPU مدل RTX 3060 همزمان 12 جريان ويدئويي (حدود 60 چهره) و روي RTX 3090 تا 55 جريان (حدود 275 چهره) را پردازش كند، در حاليكه پايداري شناسهها در آزمونهاي ميداني مورد تأييد كارفرما قرار گرفته است. بدينترتيب، پژوهش حاضر نشان ميدهد كه رديابي سر، همراه با خطلوله مبتني بر DeepStream و مجموعهداده اختصاصي، راهكاري عملي و مقياسپذير براي سامانههاي نظارت چنددوربينه صنعتي فراهم ميكند.
كليدواژهها: رديابي چندشئ، شبكههاي سيامي،YOLOv8m-Pose ، خطلوله، DeepStream، بازشناسي چهره
-
كليدواژه لاتين
Multi-Object Tracking, , Siamese Networks, , YOLOv8m-Pose, , Pipeline, , DeepStream , , Face Recohnition
-
عنوان لاتين
Real-Time Architecture for Multi-Object Human Head Detection and Tracking with Emphasis on Scalability and Multi-Stream Processing in DeepStream
-
گروه آموزشي
مهندسي برق
-
چكيده لاتين
Abstract
Industrial video surveillance and people-flow analytics require stable identity tracking of many individuals across tens of cameras in real time and with low latency. Face based tracking in such settings often suffers from severe appearance changes due to pose, illumination, expression and occlusion, which leads to frequent ID switches and degraded performance.
This thesis proposes a practical multi object tracking approach for multi camera environments in which the “head” is used as the primary tracking target and face recognition is applied in a subsequent stage on more stable crops. We first review state of the art multi object trackers based on Siamese networks and detection based pipelines, together with software and hardware platforms (OpenCV, GStreamer and NVIDIA DeepStream), and, according to the customer’s requirements, select a detection based architecture built on DeepStream and desktop GPUs. On top of this platform, we design and implement a multi camera pipeline for head detection and tracking and facial keypoint extraction. The core detector is a YOLOv8m Pose model trained on a new dataset of 34,579 images constructed by combining the CrowdHuman and WIDER FACE datasets and providing, for each head, a bounding box and up to five facial keypoints. On this dataset the detector achieves 70.6% mAP50 and 43.1% mAP50 95 for head bounding boxes and 34.3% mAP50 and 32.3% mAP50 95 for facial keypoints. Performance evaluation shows that, at 1080p resolution and 15 frames per second, the proposed pipeline can process 12 video streams (about 60 faces) on a single RTX 3060 GPU and up to 55 streams (about 275 faces) on an RTX 3090, while maintaining real time operation. Field tests with industrial partners confirm the stability of identities and the practical usability of the system. Overall, the thesis demonstrates that head based tracking, combined with a DeepStream based pipeline and a tailored training dataset, provides a scalable and deployable solution for industrial multi camera surveillance.
Keywords: Multi-Object Tracking, Siamese Networks, YOLOv8m-Pose, Pipeline, DeepStream, Face Recohnition
-
تعداد فصل ها
5 فصل
-
فهرست مطالب pdf
153079
-
نويسنده
طاهرنيا، مجتبي
-
لينک به اين مدرک :