نام پژوهشگر: علی اصغر اسلمی نژاد اسلمی نژاد

مقایسه الگوریتم های متفاوت تخمین داده های گمشده در مجموعه داده های آزمایش های ریزآرایهcdna با شرایط گوناگون
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده کشاورزی 1392
  مریم مشیری   علی اصغر اسلمی نژاد اسلمی نژاد

تکنیک ریزآرایه dna، تکنولوژی معمول با عملکرد بالا برای نشان دادن سطوح بیان هزاران ژن بطور همزمان در شرایط مختلف است. این تکنیک، بیولوژی ملکولی را متحول ساخت. برخلاف بیولوژی ملکولی قدیمی، استفاده مفید ریزآرایه dna، نیازمند استفاده توام آمار و محاسبات جهت طراحی آرایه ها، طراحی آزمایشات و تجزیه تحلیل و مدیریت داده ها است. مهمترین کاربرد آن تعیین شباهت ژن های بیان شده در شرایط مختلف سلولی و مرتبط ساختن ژن های دارای عملکردهای سلولی مشابه است. اطلاعات آزمایشات ریزآرایه ها معمولا در قالب ماتریس های بزرگ بیان ژن و شرایط مختلف آزمایشی و تعدادی داده گمشده هستند. متاسفانه حتی با رشد تکنولوژی، در تکنولوژی های توان بالا تولید داده نیز با داده های گمشده مواجه هستیم. بنا بر دلایل آزمایشگاهی و اقتصادی امکان انجام دوباره آزمایشات ممکن نیست، از این رو حذف داده ها و یا جایگزین کردن با اعداد ثابت به جای داده-های گمشده از نظر بسیاری از محققان مورد قبول است. از آنجا که بسیاری از الگوریتم های خوشه-بندی و تعدادی از روش های تجزیه تحلیل آماری به دسته داده های کامل نیازمندند، محاسبه داده های گمشده برای کاربرد موثر اطلاعات ریزآرایهdna امری ضروری است. عدم توجه به داده های گمشده و روش مناسب جهت تخمین آن ها سبب کاهش دقت، ایجاد اشکالاتی در نتیجه گیری، عدم کاربردی بودن داده های حاصل از آزمایشات و عدم توانایی در تعمیم آن ها به جامعه واقعی خواهد شد. بنابراین برای حداقل کردن اثر دسته داده های ناقص در تجزیه تحلیل ها و افزایش دامنه قابل اطمینان داده ها، باید از الگوریتم های تخمین داده های گمشده استفاده کرد. در این مطالعه یازده الگوریتم تخمین داده-های گمشده برای مقایسه کارایی آن ها در شرایط مختلف با استفاده از دسته داده های برگرفته از پایگاه های معتبر داده، الگوریتم های مخصوص تخمین داده های گمشده، نرم افزارها و دستوراتی برای انجام مراحل مختلف تخمین بکار گرفته شد. نتیجه می گیریم با افزایش درصد داده های گمشده، دقت این الگوریتم ها کاهش می یابد. همچنین عواملی نظیر ذات خطی و غیرخطی داده، توزیع گمشدگی داده ها، نوع داده ها، درصد گمشدگی داده ها، کمیت پارامترهای موثر در الگوریتم های تخمین داده های گمشده، سایز داده و وجود نویز نیز بر دقت و کارایی این روش ها موثرند.