• شماره ركورد
    25534
  • شماره راهنما
    ELE2 517
  • عنوان

    معماري برخط تشخيص و رديابي چندشئ «سر انسان» با تأكيد بر مقياس‌پذيري و پردازش چندجرياني در DeepStream

  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي برق - سيستم هاي الكترونيك ديجيتال
  • دانشكده
    فني و مهندسي
  • تاريخ دفاع
    1404/10/10
  • صفحه شمار
    113 ص.
  • استاد راهنما
    دكتر پيمان معلم
  • كليدواژه فارسي
    رديابي چندشئ , ، شبكه‌هاي سيامي , ،YOLOv8m-Pose , خط‌لوله، , DeepStream، , بازشناسي چهره
  • چكيده فارسي
    چكيده سامانه‌هاي نظارت تصويري و تحليل تردد در مقياس صنعتي نيازمند رديابي پايدار هويت افراد در ده‌ها دوربين، به‌صورت برخط و با تأخير كم هستند. رديابي مبتني بر چهره در چنين شرايطي به‌دليل غيرصلب بودن چهره و اثر چرخش، انسداد و تغييرات نور، اغلب به تغيير مكرر شناسه‌ها و افت كارايي منجر مي‌شود. در اين پايان‌نامه رويكردي عملياتي براي رديابي چند‌شئ‌اي در محيط‌هاي چند‌دوربينه پيشنهاد مي‌شود كه در آن، به‌جاي رديابي مستقيم چهره، «سر» به‌عنوان هدف رديابي انتخاب شده و بازشناسي چهره در گام بعدي روي خروجي‌هاي پايدارتر انجام مي‌گيرد. ابتدا طيفي از ردياب‌هاي چند‌شئ‌اي مبتني بر شبكه‌هاي سيامي و ردياب‌هاي مبتني بر تشخيص، همراه با بسترهاي سخت‌افزاري و نرم‌افزاري (OpenCV, GStreamer و DeepStream) از نظر دقت، پيچيدگي و مقياس‌پذيري بررسي مي‌شود و بر اساس الزامات كارفرما، معماري مبتني بر تشخيص بر بستر DeepStream و GPUهاي روميزي برگزيده مي‌شود. سپس يك خط‌لوله چند‌دوربينه براي تشخيص و رديابي سر و استخراج نقاط‌كليدي چهره طراحي و پياده‌سازي مي‌گردد كه در آن، يك آشكارساز YOLOv8m Pose روي مجموعه‌داده‌اي جديد شامل 34٬579 تصوير آموزش مي‌شود؛ اين مجموعه‌داده از تركيب CrowdHuman و WIDER FACE ساخته شده و براي هر سر، جعبه محاطي و حداكثر پنج نقطه‌كليدي چهره را فراهم مي‌كند. آشكارساز پيشنهادي در اين مجموعه‌داده به mAP50 برابر 70٫6٪ و mAP50 95 برابر 43٫1٪ براي جعبه‌هاي سر و به mAP50 برابر ٪34٫3 و mAP50 95 برابر 32٫3٪ براي نقاط‌كليدي چهره دست مي‌يابد. ارزيابي كارايي نشان مي‌دهد كه خط‌لوله پيشنهادي در وضوح p1080و نرخ 15 فريم‌برثانيه قادر است روي يك GPU مدل RTX 3060 هم‌زمان 12 جريان ويدئويي (حدود 60 چهره) و روي RTX 3090 تا 55 جريان (حدود 275 چهره) را پردازش كند، در حالي‌كه پايداري شناسه‌ها در آزمون‌هاي ميداني مورد تأييد كارفرما قرار گرفته است. بدين‌ترتيب، پژوهش حاضر نشان مي‌دهد كه رديابي سر، همراه با خط‌لوله مبتني بر DeepStream و مجموعه‌داده اختصاصي، راهكاري عملي و مقياس‌پذير براي سامانه‌هاي نظارت چند‌دوربينه صنعتي فراهم مي‌كند. كليدواژه‌ها: رديابي چندشئ، شبكه‌هاي سيامي،YOLOv8m-Pose ، خط‌لوله، DeepStream، بازشناسي چهره
  • كليدواژه لاتين
    Multi-Object Tracking, , Siamese Networks, , YOLOv8m-Pose, , Pipeline, , DeepStream , , Face Recohnition
  • عنوان لاتين
    Real-Time Architecture for Multi-Object Human Head Detection an‎d Tracking with Emphasis on Scalability an‎d Multi-Stream Processing in DeepStream
  • گروه آموزشي
    مهندسي برق
  • چكيده لاتين
    Abstract Industrial video surveillance an‎d people-flow analytics require stable identity tracking of many individuals across tens of cameras in real time an‎d with low latency. Face based tracking in such settings often suffers from severe appearance changes due to pose, illumination, expression an‎d occlusion, which leads to frequent ID switches an‎d degraded performance. This thesis proposes a practical multi object tracking approach for multi camera environments in which the “head” is used as the primary tracking target an‎d face recognition is applied in a subsequent stage on more stable crops. We first review state of the art multi object trackers based on Siamese networks an‎d detection based pipelines, together with software an‎d hardware platforms (OpenCV, GStreamer an‎d NVIDIA DeepStream), an‎d, according to the customer’s requirements, selec‎t a detection based architecture built on DeepStream an‎d desktop GPUs. On top of this platform, we design an‎d implement a multi camera pipeline for head detection an‎d tracking an‎d facial keypoint extraction. The core detector is a YOLOv8m Pose model trained on a new dataset of 34,579 images constructed by combining the CrowdHuman an‎d WIDER FACE datasets an‎d providing, for each head, a bounding box an‎d up to five facial keypoints. On this dataset the detector achieves 70.6% mAP50 an‎d 43.1% mAP50 95 for head bounding boxes an‎d 34.3% mAP50 an‎d 32.3% mAP50 95 for facial keypoints. Performance eva‎luation shows that, at 1080p resolution an‎d 15 frames per second, the proposed pipeline can process 12 video streams (about 60 faces) on a single RTX 3060 GPU an‎d up to 55 streams (about 275 faces) on an RTX 3090, while maintaining real time operation. Field tests with industrial partners confirm the stability of identities an‎d the practical usability of the system. Overall, the thesis demonstrates that head based tracking, combined with a DeepStream based pipeline an‎d a tailored training dataset, provides a scalable an‎d deployable solution for industrial multi camera surveillance. Keywords: Multi-Object Tracking, Siamese Networks, YOLOv8m-Pose, Pipeline, DeepStream, Face Recohnition
  • تعداد فصل ها
    5 فصل
  • فهرست مطالب pdf
    153079
  • نويسنده

    طاهرنيا، مجتبي