نام پژوهشگر: منیژه قایمی دیزجی

داده کاوی داده های طبی با رویکرد کاهش ابعاد مجموعه‏ی داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده علوم ریاضی 1391
  منیژه قایمی دیزجی   محمدرضا فیضی درخشی

داده‏کاوی یکی از مراحل کشف دانش است و دانش حاصل از داده‏کاوی در زمینه‏های گوناگون از جمله تجارت و پزشکی مورد استفاده قرار می‏گیرد. امروزه با پیشرفت علم و دانش، اطلاعات ذخیره شده در مورد موجودیت‏ها در پایگاه‏داده‏ها نیز در حال افزایش است. مطالعات نشان داده‏اند که بیشتر مواقع همه‏ی اطلاعات در مورد موجودیت‏ها نه تنها برای داده‏کاوی مفید نیستند، بلکه مشکلاتی را برای داده‏کاوی ایجاد می‏کنند. بنابراین سعی می‏شود با استفاده از فرایند انتخاب مولفه، مولفه‏های مفید و مربوط برای یادگیری انتخاب شده و مولفه‏های زاید و نامربوط کنار گذاشته شوند. ولی همیشه کنار گذاشتن قطعی برخی مولفه‏ها قبل از داده‏کاوی مطلوب نیست. در این مواقع سعی می‏شود اهمیت مولفه‏ها برای داده‏کاوی مشخص شود که این روند توسط الگوریتم‏های وزن‏دهی مولفه صورت می‏گیرد. انتخاب و وزن‏دهی مولفه از جمله مسائل غیر چند‏جمله‏ای سخت هستند که اخیراً استفاده از الگوریتم‏های تکاملی برای حل این مسائل نتایج قابل قبولی را نشان داده است. طبیعت همواره مورد الهام بسیاری از افراد بوده است؛ به‏طوری‏که افراد مختلف سعی کرده‏اند با استفاده از روندهای موجود در طبیعت به حل مشکلات موجود بپردازند. از جمله الگوریتم‏های تکاملی مبتنی بر طبیعت می‏توان به الگوریتم ژنتیک و مورچه‏ها اشاره کرد. در این راستا در این پایان‏نامه با توجه دقیق به روند موجود در جنگل، الگوریتم تکاملی جدیدی به نام الگوریتم جنگل ارائه شده است. به منظور بررسی کارایی الگوریتم پیشنهادی جنگل، 3 تابع آزمون در حالت 5 و 10 بعدی مورد بررسی قرار گرفته است. نتایج بدست آمده نشان دهنده‏ی برتری قاطع الگوریتم جنگل از نظر زمان و تعداد نسل رسیدن به جواب نزدیک به بهینه نسبت به الگوریتم ژنتیک است. در این پایان‏نامه مساله‏ی وزن‏دهی مولفه با استفاده از الگوریتم پیشنهادی جنگل حل شده است. نتایج آزمایش‏ها بر روی مجموعه داده‏هایی با اندازه‏های مختلف نشان دادند که الگوریتم جنگل می‏تواند کارایی الگوریتم یادگیری نزدیکترین همسایگی را با استفاده از وزن‏دهی مولفه، در 4 مجموعه داده از 7 مجموعه داده‏ی انتخابی به خوبی بهبود ببخشد. به منظور بررسی بیشتر کارایی الگوریتم جنگل، مساله‏ی انتخاب مولفه نیز با استفاده از الگوریتم جنگل حل شده است. نتایج آزمایش‏ها بر روی 6 مجموعه داده نشان دادند که الگوریتم جنگل می‏تواند کارایی الگوریتم نزدیکترین همسایگی را در 4 مجموعه داده به خوبی بهبود ببخشد. در 2 مجموعه داده‏ای که الگوریتم جنگل نتوانسته است بهتر از روش‏های موجود عمل کند، دارای رتبه‏ی دو است.