• شماره ركورد
    25341
  • شماره راهنما
    COM2 700
  • عنوان

    عنوان‌دهي تصوير با استفاده ازيك مدل انتها به انتها بر پايه مبدل بينايي

  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
  • دانشكده
    مهندسي كامپيوتر
  • تاريخ دفاع
    1402/07/26
  • صفحه شمار
    93 ص .
  • استاد راهنما
    حسين ماهوش محمدي , دكتر بيژن شوشتريان
  • كليدواژه فارسي
    عنوان‌دهي تصوير , يادگيري عميق , چهارچوب رمزگذار رمزگشا , مبدل , مدل سازي زبان
  • چكيده فارسي
    در دنياي امروز با رشد روز افزون مفاهيم بصري مانند تصاوير و استفاده از آن‌ها در زمينه‌هاي مختلف نياز به سيستمي كه بتواند اين مفاهيم را به زبان طبيعي شرح دهد، بيشتر از هميشه ضرورت مي‌يابد. عنوان‌دهي تصوير با هدف توليد توصيف‌هاي دقيق، مختصر و مفيد از تصاوير يكي از زمينه‌هايي است كه امروزه توجه محققان را به خود جلب كرده است. عنوان‌دهي تصوير با دو چالش عمده يعني رمزگذاري تصوير و مدل‌هاي زباني رو به رو است كه هر يك از اين چالش‌ها خود به تنهايي زمينه بسياري از تحقيقات است. اخيراً استفاده از مبدل‌ها در زمينه‌هاي مختلف، باعث ايجاد يك خط سير جديد در مسائل بينايي ماشين از جمله عنوان‌دهي تصوير شده است. اكثر مدل‌هاي مبتني بر مبدل موجود دو مشكل عمده دارند:1- بيشتر مدل‌هاي مبتني بر مبدل موجود از نشانه‌ها با اندازه ثابت استفاده مي‌كنند كه براي كاربردهاي بينايي نامناسب است. 2- وضوح پيكسل‌ها در تصاوير نسبت به كلمات در متن بسيار بيشتر است. جهت رفع اين مشكلات و بهبود روش¬هاي موجود، در اين پژوهش ما يك مدل جديد انتها به انتهاي عنوان‌دهي تصوير پيشنهاد كرده‌ايم كه از مدل‌هاي مبتني بر مبدل به عنوان رمزگذار استفاده ‌مي‌كند كه در يك ساختار سلسه مراتبي، ويژگي‌هاي ناحيه‌اي و ويژگي‌هاي محلي را تركيب ‌مي‌كند. همچنين براي پشتيباني بهتر اطلاعات زمينه ويژگي‌هاي جهاني را از ويژگي‌هاي ناحيه¬اي استخراج كرده‌ايم. در نهايت يك رمزگشا كه هم از ويژگي‌هاي محلي و ويژگي‌هاي جهاني استفاده ‌مي‌كند، عنوان‌هاي با كيفيت دقيق و توصيفي توليد مي‌كند. آزمايش¬هاي تجربي بر اساس معيار‌هاي ارزيابي مشهور ازجمله، (CIDEr, BELU,METEOR) روي مجموعه داده MSCOCO، نشان داد كه روش پيشنهادي در مقايسه با ساير روش‌هاي جديد عملكرد بهتري دارد. براي مثال از نظر معيار CIDEr نسبت به مدل PureT افزايش 3.18% و نسبت به مدل DLCT افزايش 6.5% دارد.
  • كليدواژه لاتين
    Image Captioning , Deep Learning , Encoder-Decoder Framework , Transformer , Language Modeling
  • عنوان لاتين
    End-to-End Image Captioning based on Vision Transformer
  • گروه آموزشي
    مهندسي هوش مصنوعي
  • چكيده لاتين
    In todayʹs world, with increasing the growth of visual concepts such as images an‎d increasing the application of them in various fields, the need for a system that can describe these concepts in natural language is necessary more than ever. Image captioning with the aim of producing accurate, concise an‎d useful descriptions of images is one of the attractive fields for researchers. Image captioning faces two major challenges, namely image encoding an‎d language models that each of them is eva‎luated in many studies by itself. Recently, the use of transformers in various fields has resulted in a new trajectory in machine vision problems, including image captioning. Most of the current transformer-based models have two major problems: 1- Most of these transformer-based models use fixed-size symbols, which is not appropriate for vision applications. 2- The resolution of pixels in images is much higher than that of words in text. In present study, In order to solve these problems an‎d also improving the current methods, a new end-to-end image captioning model has been proposed. This model uses transformer-based models as encoders that supports regional features an‎d local features in a hierarchical structure. We also extracted global features from regional features to better support the context information. Finally, a decoder that uses both local features an‎d global features produced accurate an‎d descriptive quality titles. Experimental tests based on well-known eva‎luation criteria such as (CIDEr, BELU, METEOR) on the MSCOCO dataset showed that the proposed method was better compared to the other new methods. For example, according to the CIDEr metric, it has a 3.18% increase compared to the PureT model an‎d a 6.5% increase compared to the DLCT model.
  • تعداد فصل ها
    6
  • فهرست مطالب pdf
    150197
  • نويسنده

    اميني، حبيب الله