محمدحسین دشتبان

نام پژوهشگر: محمدحسین دشتبان

راهکار ترکیبی برای انتخاب ویژگی در داده های ابعاد بالا

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی 1391
محمدحسین دشتبان پرهام مرادی

با پیشرفت روزافزون تکنولوژی در زمینه داده کاوی در حوزه های علمی مختلف، مجموعه داده های با ابعاد بسیار بالا در حال افزایش است که منجر به کاهش کارایی الگوریتمهای دسته بندی می شود. لذا نیاز به کاهش حجم این مجموعه داده ها امری ضروری است. در مجموعه داده ها با ابعادبالا، تعداد زیادی ویژگی برای هرنمونه وجود دارد که بسیاری از آنها نامرتبط و زاید می باشند. در این پایان نامه برروی انتخاب ویژگی بر روی مجموعه داده های ابعادبالای دو حوزه مختلف علم، بیوانفورماتیک و متن، کارشده است. برای هریک از این حوزه ها راهکارهای انتخاب ویژگی متفاوتی توسط محققان ارایه شده است که این راهکارها وابسته به ماهیت ویژگی های حوزه مورد نظر می باشد. مثلا ویژگی های داده های میکروآرایه مقدار "بیان ژن ها" می باشند که عددی حقیقی می باشد در حالی که در متن، ویژگی ها واژه ها بوده که الگوریتمهای ارائه شده در این حوزه بر روی خصوصیت آماری آنها که ماهیتی گسسته دارد تمرکز دارد. راهکارهای ارائه شده برای انتخاب ویژگی به دو دسته کلی باناظر و بی ناظر تقسیم بندی می شوند. راهکارهای باناظر از برچسب کلاس ها در انتخاب ویژگی کمک می گیرند، در حالی که در حالت بی ناظر تنها از مقادیر ویژگی ها استفاده می شود. تحلیل واریانس از راهکارهای بی ناظر می باشد که از دیرباز مورد توجه محققان بوده است. در قسمت اول این پایان نامه، روش های انتخاب ویژگی بی ناظر و با ناظر با تکیه بر استخراج ویژگی، تحلیل واریانس و خوشه بندی پیشنهاد شده است. روش ارایه شده بر روی شش مجموعه داده بزرگ بیوانفورماتیک که ویژگی های آن ژن ها می باشند، اعمال شده است. آزمایشات و بررسی های مختلف انجام گرفته نشان می دهند که روش بی ناظر و باناظر پیشنهادی در مجموعه داده های مختلف کارایی قابل قبولی را کسب نموده است. در راهکار پیشنهادی دوم پایان نامه، روش انتخاب ویژگی مبتنی بر فیلتر با تکیه بر عامل های احتمالاتی تاثیرگذار در دسته بندی متن که در روش های انتخاب ویژگی احتمالاتی پرکاربرد به کار رفته، ارایه می شود. روش ارایه شده از جنبه های مختلف مورد تحلیل قرارگرفته و کارایی ویژگی های انتخابی آن در دسته بندی متن با روش های دیگر انتخاب ویژگی مبتنی بر فیلتر مقایسه شده است. آزمایشات متعدد، روش های فیلتر را از جنبه های مختلف همانند: میزان اشتراک ویژگی های برتر انتخاب شده، بررسی واریانس ویژگی ها، کارایی ویژگی های انتخاب شده بر اساس معیارهای مختلف، رفتار کارایی آنها با افزایش تعداد ویژگی ها و میزان دقت و بازیابی روش ها نسبت به یکدیگر، به طور عملی مورد مطالعه قرار می دهند. سه مجموعه داده استاندارد: reuter-r8، 20newsgroup و webkb دراین مطالعه استفاده شده است. آزمایشات مختلف نشان دهنده این است که روش پیشنهادی در هر سه مجموعه داده توانایی رقابت با روش های موفق انتخاب ویژگی مبتنی بر فیلتر را داراست به طوریکه در برخی موارد اختلاف قابل توجهی را ایجاد نموده است.

۱۵ صفحه ی اول