-
شماره ركورد
25341
-
شماره راهنما
COM2 700
-
نويسنده
اميني، حبيب الله
-
عنوان
عنواندهي تصوير با استفاده ازيك مدل انتها به انتها بر پايه مبدل بينايي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
1402/07/26
-
صفحه شمار
93 ص .
-
استاد راهنما
حسين ماهوش محمدي , دكتر بيژن شوشتريان
-
كليدواژه فارسي
عنواندهي تصوير , يادگيري عميق , چهارچوب رمزگذار رمزگشا , مبدل , مدل سازي زبان
-
چكيده فارسي
در دنياي امروز با رشد روز افزون مفاهيم بصري مانند تصاوير و استفاده از آنها در زمينههاي مختلف نياز به سيستمي كه بتواند اين مفاهيم را به زبان طبيعي شرح دهد، بيشتر از هميشه ضرورت مييابد. عنواندهي تصوير با هدف توليد توصيفهاي دقيق، مختصر و مفيد از تصاوير يكي از زمينههايي است كه امروزه توجه محققان را به خود جلب كرده است. عنواندهي تصوير با دو چالش عمده يعني رمزگذاري تصوير و مدلهاي زباني رو به رو است كه هر يك از اين چالشها خود به تنهايي زمينه بسياري از تحقيقات است. اخيراً استفاده از مبدلها در زمينههاي مختلف، باعث ايجاد يك خط سير جديد در مسائل بينايي ماشين از جمله عنواندهي تصوير شده است. اكثر مدلهاي مبتني بر مبدل موجود دو مشكل عمده دارند:1- بيشتر مدلهاي مبتني بر مبدل موجود از نشانهها با اندازه ثابت استفاده ميكنند كه براي كاربردهاي بينايي نامناسب است. 2- وضوح پيكسلها در تصاوير نسبت به كلمات در متن بسيار بيشتر است. جهت رفع اين مشكلات و بهبود روش¬هاي موجود، در اين پژوهش ما يك مدل جديد انتها به انتهاي عنواندهي تصوير پيشنهاد كردهايم كه از مدلهاي مبتني بر مبدل به عنوان رمزگذار استفاده ميكند كه در يك ساختار سلسه مراتبي، ويژگيهاي ناحيهاي و ويژگيهاي محلي را تركيب ميكند. همچنين براي پشتيباني بهتر اطلاعات زمينه ويژگيهاي جهاني را از ويژگيهاي ناحيه¬اي استخراج كردهايم. در نهايت يك رمزگشا كه هم از ويژگيهاي محلي و ويژگيهاي جهاني استفاده ميكند، عنوانهاي با كيفيت دقيق و توصيفي توليد ميكند. آزمايش¬هاي تجربي بر اساس معيارهاي ارزيابي مشهور ازجمله، (CIDEr, BELU,METEOR) روي مجموعه داده MSCOCO، نشان داد كه روش پيشنهادي در مقايسه با ساير روشهاي جديد عملكرد بهتري دارد. براي مثال از نظر معيار CIDEr نسبت به مدل PureT افزايش 3.18% و نسبت به مدل DLCT افزايش 6.5% دارد.
-
كليدواژه لاتين
Image Captioning , Deep Learning , Encoder-Decoder Framework , Transformer , Language Modeling
-
عنوان لاتين
End-to-End Image Captioning based on Vision Transformer
-
گروه آموزشي
مهندسي هوش مصنوعي
-
چكيده لاتين
In todayʹs world, with increasing the growth of visual concepts such as images and increasing the application of them in various fields, the need for a system that can describe these concepts in natural language is necessary more than ever. Image captioning with the aim of producing accurate, concise and useful descriptions of images is one of the attractive fields for researchers. Image captioning faces two major challenges, namely image encoding and language models that each of them is evaluated in many studies by itself. Recently, the use of transformers in various fields has resulted in a new trajectory in machine vision problems, including image captioning. Most of the current transformer-based models have two major problems: 1- Most of these transformer-based models use fixed-size symbols, which is not appropriate for vision applications. 2- The resolution of pixels in images is much higher than that of words in text. In present study, In order to solve these problems and also improving the current methods, a new end-to-end image captioning model has been proposed. This model uses transformer-based models as encoders that supports regional features and local features in a hierarchical structure. We also extracted global features from regional features to better support the context information. Finally, a decoder that uses both local features and global features produced accurate and descriptive quality titles. Experimental tests based on well-known evaluation criteria such as (CIDEr, BELU, METEOR) on the MSCOCO dataset showed that the proposed method was better compared to the other new methods. For example, according to the CIDEr metric, it has a 3.18% increase compared to the PureT model and a 6.5% increase compared to the DLCT model.
-
تعداد فصل ها
6
-
فهرست مطالب pdf
150197
-
لينک به اين مدرک :