نام پژوهشگر: اکرم وثیقی ذاکر

پیش بینی و اولویت بندی ژن های کاندید بیماری با استفاده از داده های توالی پروتئین و رویکرد یادگیری ماشین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر 1393
  اکرم وثیقی ذاکر   سعید جلیلی

براساس این اصل که ژن‏های بیماری های مشابه احتمالاً ویژگی های مشابه دارند، تاکنون برخی روش‏های یادگیری ماشین برای پیش‏بینی ژن‏های بیماری جدید با استفاده از ژن‏های شناخته شده عامل بیماری به کار گرفته شده است. روش‏های پیشین معمولاً یک مدل دسته‏بند دوکلاسی با استفاده از ژن‏های شناخته شده ی بیماری به عنوان مجموعه ی آموزشی مثبت، و ژن‏های ناشناخته به عنوان مجموعه ی آموزشی منفی، ایجاد می‏کردند. اما مجموعه ی منفی که آنها استفاده می کردند دارای نویز است. زیرا ژن‏های ناشناخته می تواند شامل ژن‏های شناخته نشده ی بیماری، یعنی مجموعه ی مثبت هم باشد. بنابراین دسته‏بند ایجاد شده به خوبی عمل نخواهد کرد. اخیراً روش هایی مبتنی بر یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب برای شناسایی ژن های بیماری به کار گرفته شده اند. این روش ها هم منطقاً روش درستی برای ارائه راه حل برگزیده اند و هم نتایج بهتری نسبت به روش های قبل کسب کرده اند. در این پایان نامه دو روش ارائه شده است: 1) روش یادگیری تک کلاسی با استفاده از داده های مثبت و 2) روش یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب. در روش اول سعی شده است با نادیده گرفتن مجموعه بدون برچسب، اثر نامطلوب مجموعه منفی دارای نویز کاهش داده شود و با یک دسته بند تک کلاسی ژن های کاندید بیماری را دسته بندی می کنیم. سپس برای بالا بردن دقت، در روش دوم داده های بدون برچسب را هم در یادگیری دخالت می دهیم. بدین صورت که با توجه به ساختار و الگوی ژن های کاندید بیماری و همچنین با استفاده از اندازه گیری شباهت ژن های بدون برچسب به ژن های کاندید بیماری، تعدادی داده ی منفی از داده های بدون برچسب استخراج می کنیم. سپس یک دسته بند دوکلاسی با استفاده از این نمونه های منفی و نمونه های مثبت اولیه یادگیری می کنیم. در نهایت ژن های مثبت به دست آمده از دسته بند را با استفاده از تابع امتیازدهی رتبه بندی می کنیم. نتایج به دست آمده نشان می دهد که دقت دسته بندی در روش اول 7.4% و در روش دوم به مقدار 27.4% نسبت به روش های پیشین افزایش یافته است. و همینطور در نتایج اولویت بندی روش اول نرخی حدود 6% و در روش دوم نرخی حدود 7% افزایش را مشاهده می کنیم.