• شماره ركورد
    25332
  • شماره راهنما
    ELE2 510
  • عنوان

    قطعه بندي معنايي پياده‌روها براي مسيريابي كمكي ربات‌هاي خودران و افراد داراي اختلال بينايي

  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي برق - سيستم هاي الكترونيك ديجيتال
  • دانشكده
    فني و مهندسي
  • تاريخ دفاع
    1404/06/24
  • صفحه شمار
    91 ص.
  • استاد راهنما
    دكتر محمد كاظمي‌ورنامخواستي
  • استاد مشاور
    دكتر پيمان معلم
  • كليدواژه فارسي
    قطعه‌بندي معنايي , بينايي ماشين در محيط‌هاي شهري , يادگيري نيمه‌نظارتي، , مدل‌هاي پايه بزرگ , يادگيري گروهي
  • چكيده فارسي
    چكيده با افزايش نياز به سامانه‌هاي هوشمند شهري، طراحي سيستم‌هايي براي تشخيص دقيق مسيرهاي پياده‌روي، به‌ويژه براي كمك به افراد نابينا يا كم‌بينا، اهميت يافته است. پياده‌روها به دليل تنوع ساختاري و بصري، به‌ويژه در محيط‌هاي غيرساخت‌يافته، چالشي جدي در بينايي ماشين محسوب مي‌شوند. با وجود پيشرفت‌هاي هوش مصنوعي، قطعه‌بندي معنايي پياده‌روها كمتر مورد توجه قرار گرفته و تهيه داده‌هاي واقعي برچسب‌خورده نيز پرهزينه است. در اين پايان‌نامه، چارچوبي جديد به نام VIS-STEPS ارائه شده كه با بهره‌گيري از يادگيري نيمه‌نظارتي و مدل‌هاي پايه زباني و تصويري، بهبود قابل ملاحظه‌اي در قطعه‌بندي معنايي پياده‌روها فراهم مي‌كند. در گام اول، يك مدل سبك روي مجموعه‌داده برچسب‌دار واقعي آموزش داده شد. سپس، توصيفهاي تصاوير از مدل توصيف‌گر استخراج شده و جملات متني غني از آنها با استفاده از مدل زباني بزرگ ساخته شدند. اين توصيف‌ها به مدل توليد تصوير داده شدند تا تصاوير جديد مصنوعي با كيفيت بالا توليد شود. براي برچسب‌گذاري نيمه‌نظارتي تصاوير بدون برچسب، از يك مدل معلم و سه مدل دانش‌آموز با تغييرات رنگي، بافتي و هندسي استفاده شد. نقاط كليدي برچسب‌هاي معلم با روش شبكه‌بندي استخراج شده و به مدل SAM داده شد تا برچسب‌هاي دقيق‌تري توليد شود. خروجي دانش‌آموزان با استفاده از ميانگين‌گيري تركيب و مدل معلم با استفاده از ميانگين نمايي آن‌ها به‌روزرساني گرديد. روش VIS-STEPS بدون نياز به داده‌هاي واقعي پرهزينه، دقت و تعميم‌پذيري مناسبي در قطعه‌بندي معنايي پياده‌روها ارائه داده و نسبت به مدل پايه، تا 3.5 درصد بهبود در معيار mIoU داشته است. كليدواژه‌ها: قطعه‌بندي معنايي، بينايي ماشين در محيط‌هاي شهري، يادگيري نيمه‌نظارتي، مدل‌هاي پايه بزرگ، يادگيري گروهي
  • كليدواژه لاتين
    Semantic segmentation , Machine vision in urban environments , Semi-supervised learning , Large base models , Group , learning
  • عنوان لاتين
    Semantic Segmentation of Sidewalks for Assisted Routing of Autonomous Robots an‎d Visually Impaired People
  • گروه آموزشي
    مهندسي برق
  • چكيده لاتين
    Abstract With the increasing need fo‎r smart city systems, designing systems fo‎r accurate pedestrian path recognition has become impo‎rtant, especially to assist blind o‎r visually impaired people. Sidewalks are a serious challenge in machine vision due to their structural an‎d visual diversity, especially in unstructured environments. Despite advances in artificial intelligence, semantic segmentation of sidewalks has received less attention an‎d the provision of real labeled data is also costly. In this thesis, a new framewo‎rk called VIS-STEPS is presented, which provides a significant improvement in semantic segmentation of sidewalks by utilizing semi-supervised learning an‎d language-based an‎d image-based models. In the first step, a lightweight model was trained on a real labeled dataset. Then, image descriptions were extracted from the descripto‎r model an‎d rich text sentences were constructed from them using a large language model. These descriptions were fed to the image generation model to generate new high-quality synthetic images. Fo‎r semi-supervised labeling of unlabeled images, a teacher model an‎d three student models with colo‎r, texture, an‎d geometric variations were used. Key points of the teacher labels were extracted using a meshing method an‎d fed to the SAM model to produce mo‎re accurate labels. The student output was updat‎ed using composite averaging an‎d the teacher model was updat‎ed using their exponential mean. The VIS-STEPS method provided good accuracy an‎d generalizability in semantic segmentation of sidewalks without the need fo‎r expensive real data an‎d improved the mIoU metric by up to 3.5% compared to the baseline model. Keywo‎rds: Semantic segmentation, Machine vision in urban environments, Semi-supervised learning, Large base models, Group learning.
  • تعداد فصل ها
    5 فصل
  • فهرست مطالب pdf
    150094
  • نويسنده

    بشارت نژاد، حميدرضا