-
شماره ركورد
20817
-
شماره راهنما
COM3 92
-
نويسنده
بهمنش، ميثم
-
عنوان
استفاده از ساختار هندسي داده براي يادگيري خمينه چندماهيتي
-
مقطع تحصيلي
دكتري
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي
-
دانشكده
مهندسي كامپيوتر
-
تاريخ دفاع
بهمن ماه 1400
-
صفحه شمار
174ص.
-
استاد راهنما
پيمان اديبي
-
استاد مشاور
محمدسعيد احساني
-
كليدواژه فارسي
يادگيري عميق هندسي , يادگيري خمينه , نگاشت مرتبه بالا , ماتريس لاپلاسي , فضاي مماس ذاتي , عصبي پيچشي گرافي , تبديل موجك گراف , داده چندماهيتي , كاهش بعد
-
چكيده فارسي
داده در يك ماهيت خاص بهندرت دانش كاملي از پديده¬ها در كاربردهاي واقعي فراهم مي¬كند. دربسياري از اين كاربردها،اطلاعات تكميلكنندهاي برايتوصيف يك پديده يا سيستممي-تواندازمنابعودامنه¬هايي با ماهيت¬هايمتفاوتبهدستآيد. هدف از يادگيري چندماهيتيكه به يادگيري چند ديدگاهي، يكپارچه¬سازي داده يا همجوشي داده نيز معروف است، يادگيري از چندين ماهيت مرتبط، حاوي اطلاعات تكميلي مربوط به يك پديده يا سيستم است كه منجر به بهبود قابليت تعميم يك مدل يادگيري مي¬شود. در بسياري از تحقيقات گذشته يك نوع خاص از مدل¬هاي يادگيري چندماهيتي موردبررسي قرارگرفته است كه محدود به ماهيت¬هاي همگن و شامل يك دانش پيشين از اطلاعات تناظر اوليه بين ماهيت¬ها است. در اين رساله، روي داده چندماهيتي در يك چارچوب جامع تأكيد شده است كه مطابق با آن، 1) داده در ماهيت¬هاي مختلف بهصورت ناهمگن (با انواع داده متفاوت) وجود دارد، 2) داده چند ماهيتي محدود به تعداد نمونه يكسان در ماهيت¬هاي مختلف نيست، و 3) اطلاعات تناظر نقطه¬اي يا دسته¬اي بين نمونه داده¬ها در ماهيت¬هاي مختلف از قبل معلوم نيست.
با در نظر گرفتن داده در اين چارچوب، دو چالش اصلي براي يادگيري مدل چند ماهيتي وجود دارد،1) همجوشي اطلاعات تكميلي فراهمشده توسط ماهيت¬هاي ناهمگن، و 2) كاوش اطلاعات تناظر بين آن-ها. شناسايي و كاوش اطلاعات تناظر بين ماهيت¬ها يك مسئله بسيار چالشبرانگيز است كه بهندرت در تحقيقات گذشته موردبررسي قرارگرفته است. در بسياري از تحقيقات گذشته انواع مختلف مدل¬هاي همجوشي ماهيت¬هاي چندگانه معرفيشدهاند كه نه¬تنها وابسته به دانش تناظر اوليه بين ماهيت¬ها بوده بلكه اغلب محدود به همجوشي در سطح ويژگي¬ يا تصميم¬گيري بوده¬اند.
در اين رساله، بهمنظور توسعه مدل¬هاي يادگيري داده چندماهيتي در چارچوبي جامع كه قادر به كاوش اطلاعات تناظر بين ماهيت¬ها بوده و همچنين بهمنظوربهرهگيري بهتر از اطلاعات تكميلي فراهمشده توسط ماهيت¬هاي چندگانه همجوشي ميان آن¬ها را در مرحله يادگيري مدل فراهم كند، از روش¬هاي تحليل آشنا به هندسه داده استفادهشده است. اين روش¬ها، مانند يادگيري خمينه، علاوه بر توصيف كردن ساختار داده، قابليت تحليل توابع تعريفشده در دامنه¬هاي نااقليدسي را دارند كه بهعنوان پايه اصلي براي مدل¬سازي مسائل يادگيري داده چندماهيتي در اين رساله استفادهشدهاند.
بهطور خلاصه، در اين رساله چهار مدل يادگيري چندماهيتي ارائه مي¬شود كه در آن¬ها ابتدا داده در هريك از ماهيت¬هاي چندگانه بر اساس ساختار هندسي زيربنايي آن¬ها¬ در يك دامنه نااقليدسي شامل خمينه يا گراف بازنمايي شده، سپس قابليت¬هاي روش¬هاي آشنا به هندسه داده براي كاوش اطلاعات تناظر درون ماهيتي و بين ماهيتي اعمالشده و سرانجام از اين اطلاعات در همجوشي ماهيت¬هاي چندگانه براي يكپارچه¬سازي داده و ارائه مدل¬هاي مختلف تحليل آن استفاده مي¬شود.
ابتدا مسئله چندماهيتي در چارچوب جامع ذكرشده با اطلاعات تناظر بسيار محدود در نظر گرفته¬ مي-شود و تلاش مي¬شود مدلي معرفي شود تا با بهرهگيري از ساختار هندسي داده اين نمونه¬هاي متناظر اوليه را به نمونه¬هاي متناظر و نامتناظر جديد بسط دهد. اين مدل كه بسط محلي سيگنال براي قطري سازي توأم(LSEJD) ناميده مي¬شود از يك روش مبتني بر فضاي مماس محلي در خمينه داده در هر ماهيت براي بسط نمونه¬هاي متناظر و بسيار محدود اوليه به نمونه¬هاي متناظر و نامتناظر جديد استفاده مي¬كند. اطلاعات تناظر فراهمشده با اين مدل براي تقريب زدن پايه¬هاي ويژه مشترك ماتريس¬هاي لاپلاسي براي هر ماهيت استفادهشده كه از اين پايه¬ها در تحليل مسائلي مانند خوشه¬بندي طيفي چند ماهيتي و دسته¬بندي چندماهيتي استفاده مي¬شود.
در ادامه تلاش شده است تا با تأكيد بيشتر روي ساختار هندسي داده دانش محدود اوليه حذفشده و مسئله در چارچوب جامع ذكرشده ارائه شود. براي اين منظور، مدل نگاشت مرتبه بالا بين توصيف-گرهاي محلي(FMBSD)معرفيشده است كه ابتدا با استفاده از مجموعه¬اي از توابع توصيف¬گر محلي ساختار¬هاي محلي هر خمينه را شناسايي كرده و سپس با يافتن يك نگاشت مرتبه بالا بين اين توصيف-گرهاي محلي از آن براي شناسايي تناظر بين نمونه¬داد¬ها در ماهيت¬هاي مختلف استفاده مي¬كند. در اين بخش بهطور خاص روي مسئله دسته¬بندي چنددسته¬اي چندماهيتي با داده ناهمگن تمركز شده است و يك مدل دسته¬بندي چندماهيتي تنظيمشده با خمينه بر اساس تناظر نقطه¬اي (M2CPC)معرفي مي-شود.
-
تاريخ نمايه سازي
1401/01/22
-
نام نمايه ساز
صديقه رمضاني
-
كليدواژه لاتين
Cross-modal retrieval , Dimensionality reduction , Functional map , Geometric deep learning , Graph convolutional neural networks , Graph wavelet transform , Intrinsic tangent spac , Laplacian matrix , Manifold learning , Manifold regularization , Multimodal learning
-
عنوان لاتين
Using Geometric Structure of Data for Multimodal Manifold
-
گروه آموزشي
مهندسي هوش مصنوعي
-
چكيده لاتين
Multimodal data provide complementary information of a natural phenomenon by integrating data from various domains with very different statistical properties. The purpose of multimodal learning, also known as multi-view learning,data integration, or data fusion, is to learn from several related and complementarymodalities and increase the generalization performancesof a predictive learningmodel. In this dissertation, we emphasize on multimodal data in a more practical scenario in which, 1) there are heterogeneous data in each modality, 2) there may be not the same number of data samples in different modalities, and 3) pointwise and batch correspondences between modalities are unknown.
In addition, in data fusion from heterogeneous modalities, capturing the correspondences information of multimodal data, as an essential capability of multimodal learning methods, is one of the serious challenges in this scenario. Geometry-aware data analysis approaches, such as manifold learning, have the ability to deal with analyzing functions defined on a given non-Euclidean domain besides characterizing the structure of data.
Briefly, in this dissertation, we introduce four multimodal learning models that implicitly represent data in various modalities based on their geometric underlying structures, apply the capabilities of geometry-aware approaches for capturing the intra-modality and cross-modality information, and then take advantage of complementary information provided by multiple modalities by data integration for analyzing them.
We first consider the multimodal problem in that practical scenario with minimum supervision including very little corresponding samples. For this problem, the first model called local signal expansion for joint diagonalization (LSEJD), is introduced to use the intrinsic local tangent spaces for expanding the little corresponding samples to new matching and mismatching samples. This information is applied for approximating the common eigenbasis of Laplacian matrices of each modality, where these bases are used for analyzing multimodal data.
We then try to put more emphasis on the geometric structure of data by removing the minimal prior knowledge. For this reason, we identify the localities of each manifold by extracting local descriptors via spectral graph wavelet signatures (SGWS). The second model that uses a manifold regularization framework based on the functional mapping between SGWS descriptors (FMBSD) is introduced for finding the pointwise correspondences. In this step, we also focused specifically on the problem of multiclass classification of multimodal heterogeneous data and propose a manifold regularized multimodal classification model based on pointwise correspondences (M2CPC).
In this dissertation, we go beyond to implicitly representing multimodal data based on their geometric underlying structures and we also consider data that are explicitly defined on an intrinsic geometric structure. To take advantage of deep learning models in capturing the hidden patterns of explicit or implicit geometric structured data developed for unimodal cases, a multimodal multi-scaled graph wavelet convolutional network (M-GWCN) is developed as our fourth proposed model for addressing the multimodal data in this structure. M-GWCN simultaneously finds intra-modality representation by applying the multiscale graph wavelet transform to provide helpful localization properties in the graph domain of each modality, and cross-modality representation by learning permutations that encode correlations among various modalities.
In addition to theoreticalevaluation of proposed models, several...
-
تعداد فصل ها
7
-
لينک به اين مدرک :