شماره ركورد
25669
شماره راهنما
COM2 709
عنوان
تشخيص بيماري با استفاده از تركيب داده هاي ساختاريافته و بدون ساختار در پرونده سلامت الكترونيك
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
دانشكده
مهندسي كامپيوتر
تاريخ دفاع
1404/11/06
صفحه شمار
84 ص .
استاد راهنما
زهرا زجاجي , مريم لطفي
كليدواژه فارسي
پرونده سلامت الكترونيك , تشخيص بيماري , پردازش زبان طبيعي , داده¬هاي بدون ساختار , شبكه عصبي بازگشتي , مدل زباني
چكيده فارسي
امروزه با ديجيتالي شدن سوابق پزشكي در سراسر جهان و پيشرفت تكنولوژي، پرونده سلامت الكترونيك به منبع مهمي براي دادههاي دنياي واقعي تبديل شده¬است. در پرونده سلامت الكترونيك، اطلاعات سلامتي بيماران نگه داري مي¬شود. اين اطلاعات شامل داده¬هاي ساختاريافته ( مانند علائم حياتي، سن، فشارخون،جنسيت) و اطلاعات بدون ساختار(مانند يادداشتها، گزارشهاي باليني و نسخه¬هاي پزشكي) است. اطلاعات بسيار مهمي در دستهي دادههاي بدون ساختار وجود دارد. تركيب اين داده¬ها مي¬تواند باعث تشخيص دقيق¬تر بيماري گردد. از آنجايي كه حجم بيشتري از اطلاعات بيماران را داده¬هاي بدون ساختار تشكيل مي¬دهند، استفاده و تحليل داده¬هاي بدون ساختار اهميت بسيار زيادي دارد. در اين پژوهش داده¬هاي بدون ساختار و داده¬هاي ساختاريافته پرونده سلامت الكترونيك براي تشخيص بيماري در نظر گرفته شده اند. در اين پژوهش از مجموعه داده MIMIC-III كه دربرگيرنده انواع داده¬هاي زماني ساختاريافته و بدون ساختار است، استفاده شده¬است. براي انجام اين كار، در مرحله اول، ستون¬هاي مناسب داده¬هاي ساختاريافته از اين مجموعه داده استخراج شده¬است، در مرحله دوم، داده¬هاي بدون ساختار و يادداشت¬هاي پزشكي اين مجموعه داده تحليل شده و با استفاده از مدل كلينيكال برت داده-هاي بدون ساختار تبديل به بردارهاي تعبيه شده¬است. در مرحله سوم، يك جدول از مجموعه داده¬هاي جديد متشكل از داده¬هاي ساختاريافته و نتايج داده¬هاي بدون ساختار ايجاد شده¬است. در مرحله چهارم، تشخيص بيماري با استفاده از اين مجموعه داده منتخب و تحليل شده¬است و با اين تركيب داده¬ها مدل سازي با مدل LSTM و مدلBERT انجام شده¬است. ورودي مدل، تركيب داده¬ها و خروجي آن، كد تشخيص بيماري است. نتايج نشان مي¬دهد كه تشخيص كد بيماري با درنظرگرفتن تمامي انواع داده¬ها داراي معيار دقت 0.94 ، فراخواني 0.93 و صحت 0.94 است. كد بيماري معرف دقيق نام بيماري طبق مجموعه داده MIMIC-III است. داشتن مدلي با اين نتايج در حوزه سلامت، كمك بسيار زيادي به فرآيند درمان، شناسايي زودهنگام بيماري¬ها و پيشگيري از مرگ و مير خواهد كرد.
كليدواژه لاتين
Electronic health record , disease diagnosis , natural language processing , unstructured data , recurrent neural network , language model
عنوان لاتين
Disease diagnosis using a combination of structured and unstructured data in electronic health records.
گروه آموزشي
مهندسي نرم افزار
چكيده لاتين
Today, with the digitization of medical records around the world and the advancement of technology, electronic health records have become an important source of real-world data. In electronic health records, patient health information is stored. This information includes structured data (such as vital signs, age, blood pressure, gender) and unstructured information (such as notes, clinical reports, and medical prescriptions). There is very important information in the unstructured data category. Combining this data can lead to more accurate diagnosis of the disease. Since a larger volume of patient information is made up of unstructured data, the use and analysis of unstructured data is of great importance. In this study, unstructured data and structured data from electronic health records are considered for disease diagnosis. In this study, the MIMIC-III dataset, which includes a variety of structured and unstructured temporal data, was used. To do this, in the first step, appropriate columns of structured data were extracted from this dataset, in the second step, unstructured data and medical notes of this dataset were analyzed and unstructured data were transformed into embedded vectors using the Clinical BERT model. In the third step, a table of the new dataset consisting of structured data and unstructured data results was created. In the fourth step, disease diagnosis was selected and analyzed using this dataset and modeling was performed with the LSTM model and BERT model with this data combination. The input of the model is the data combination and its output is the disease diagnosis code. The results show that the disease code diagnosis, considering all data types, has a precision of 0.94, recall of 0.93 and precision of 0.94. The disease code is the exact identifier of the disease name according to the MIMIC-III dataset. Having a model with these results in the health field will greatly contribute to the treatment process, early detection of diseases, and prevention of mortality.
تعداد فصل ها
6
فهرست مطالب pdf
156959
نويسنده