نام پژوهشگر: رویا گوانجی

خوشه بندی مدل-پایه ی داده های بیان ژن با استفاده از توزیع آمیخته ی چند متغیره ی t
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده ریاضی 1392
  رویا گوانجی   سروش علیمرادی

امروزه جمع آوری اطلاعات از طریق کامپیوتر و اینترنت، باعث تولید اطلاعات زیادی شده است. کسب دانش از مجموعه داده های بزرگ ممکن است پیچیده و در مواردی غیرممکن به نظر آید، بنابراین نیاز به داشتن روش هایی برای استخراج اطلاعات از این نوع داده ها ضروری است. یکی از روش های مرسوم برای داده کاوی، خوشه بندی است. نقش روش های خوشه بندی به خصوص در تحلیل داده های طولی بیان ژن بسیار پر رنگتر از بقیه زمینه ها است، چرا که شباهت در رفتار بیان ژن ها در یک خوشه خاص می تواند نشانه ای از شباهت رفتار آن ها در یک رفتار زیستی نیز باشد. بنابراین اگر بتوان ژن هایی را که رفتار بیانی مشابه، به یکدیگر دارند در میان انبوهی از ژن های دیگر یافت و آن ها را در داخل گروه های متمایزی قرار داد، آنگاه می توان با بررسی بیشتر این گروه ها به رفتار زیستی آن ها در سلول پرداخت و نقش آن ها را در عملکرد زیستی سلول شناسایی نمود.‎ در این پایان نامه خوشه بندی مدل-پایه ی داده های بیان ژن با هدف کشف عملکرد ساختار ژن های ناشناخته با استفاده از توزیع آمیخته ی چند متغیره ی t‎ با ساختار کوواریانس تجزیه ی چالسکی اصلاح شده و یک مدل خطی برای میانگین انجام می شود. با اعمال محدودیت روی ساختار کوواریانس یک خانواده ی جدید از مدل ها ایجاد می شوند. پس از برآورد پارامتر های توزیع آمیخته به وسیله ی الگوریتم em‎ و خوشه بندی داده ها، خوشه بندی مدل-پایه ی حاصل به کمک مطالعات شبیه سازی و سه مجموعه داده با روش دیگر خوشه بندی مبتنی بر مدل مقایسه می شود. نتایج حاصل شده جالب و قابل توجه است و امکان استفاده از روش پیشنهادی برای خوشه بندی انواع داده ها وجود دارد.