نام پژوهشگر: ملیحه پورعسکری

شناسایی ژنوتیپ های ویروس هپاتیت سی با استفاده از الگوریتم های شناسایی الگو و سایرالگوریتم های داده کاوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده مهندسی برق و کامپیوتر 1393
  ملیحه پورعسکری   منصور ابراهیمی

هپاتیت سی، به معنای التهاب و تورمی است که به علل مختلف در بافت کبد به وجود می آید و یکی از مشکلات عمده بهداشتی در سطح جهان است. بنابه گزارش مرکز بهداشت جهانی، شیوع این بیماری درحدود 3درصد است و تقریباً 170 میلیون نفر از جمعیت جهان به این ویروس آلوده هستند. ویروس هپاتیت سی دارای شش ژنوتیپ اصلی است که امکان درمان فرد مبتلا به ژنوتیپ یک کمتر از 50درصد است و در ژنوتیپ دوم و سوم این احتمال به بالای 80 درصد می رسد. بنابراین تشخیص نوع ژنوتیپ ابتلایی دربار? ویروس هپاتیت، قدم اول در تعیین پروسه درمانی است. در این تحقیق با استفاده از ابزارهای داده کاوی همچون الگوریتم پنجر? لغزان، مهم ترین مشخصه های ژنومی متمایزکننده براساس محل تکرارهای سه تایی بین ژنوتیپ های اول و دوم هپاتیت سی را براساس مدل های آماری وزن دهی،خوشه بندی، پیش بینی، القای درخت و قوانین انجمنی روی دو نوع داده ی اسمی و عددی بررسی کردیم. نتایج حاصل از وزن دهی روی پایگاه داده اسمی سه موقعیت 75 و 231 و60 و مدل وزن دهی روی پایگاه داده عددی موقعیت های 81 و 25 و 68 و70 و اطراف آن ها را به عنوان مهم ترین متغیر های ژنی عنوان کردند. در روش های خوشه بندی k-means و k-medoids بالاترین درصد دقت برای خوشه بندی 72درصد بوده که نسبت به سایر روش های داده کاوی نتایج مورد توجهی نداشته است. نتایج حاصل از روش های پیش بینی bayse kernle و naive bayse نشان داد که این مدل ها روی داده های عددی می توانند با دقت 98درصد دو ژنوتیپ ویروس هپاتیت سی را شناسایی کنند. در نتایج القای درخت دقیق ترین درخت دقتی برابر 15/98درصد و پرتکرارترین درخت دقتی بالای 90درصد داشت و همچنین موقعیت 25 ،4، 68و 81 بالاترین تکرار را در ریشه درختان داشتند. باتوجه به نتایج قوانین انجمنی روشfp-growth روی داده های ما بهتر عمل کرد؛ چون با ضریب اطمینان و پشتیبان نزدیک 100درصد توانست ناحیه 3209 تا 3220 را به عنوان یکی از مهم ترین ناحیه در ژنوم این ویروس که برای زنوتیپ اول و دوم بیشترین تغییرات را داشته معرفی کند. این نتایج برای اولین بار نشان دهنده نقش برخی از موقعیت های الگوهای سه تایی در شناسایی ژنوتیپ های ویروس هپاتیت سی است.