نام پژوهشگر: عارف طهماسب

بهبود کلاس بندی داده های نامتوازن با استفاده از الگوریتم های یادگیری ماشین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شهید باهنر کرمان - دانشکده فنی 1393
  عارف طهماسب   علی اکبر نیک نفس

در دنیای امروز مسئله کلاس بندی داده های نا متوازن از اهمیت خاصی برخوردار است . کلاس بندی این داده ها به گونه ای است که ، کلاسی که از نظر دامنه کاربرد اهمیت زیادی دارد (کلاس اقلیت ) شامل تعداد حالات کمتری نسبت به کلاسی است که از اهمیت خاصی برخوردار نیست (کلاس اکثریت). به این مجموعه داده ها داده های نامتوازن می گویند. روش های مختلفی برای کلاس بندی این نوع داده ها ارائه شده است .در کلاس بندی این داده ها می کوشیم تا تعداد حالات کلاس اقلیت را نسبت به کلاس اکثریت افزایش دهیم .در این تحقیق به بررسی رویکرد های مختلف برای بهبود مسئله دسته بندی داده های نامتوازن با استفاده از الگوریتم های یادگیری ماشین پرداخته شده است. برای بهبود این مسئله به بررسی سه رویکرد اساسی در سطح داده ها ، الگوریتم ها و هزینه ها(ترکیب سطح داده ها و الگوریتم ها) پرداخته شده است. در این سه سطح از الگوریتم های تکاملی ، یادگیری ماشین و نمونه برداری و... استفاده شده و همچنین در این تحقیق یک روش جدید نمونه برداری برپایه الگوریتم رقابت استعماری و الگوریتم افزایش نمونه ها توسط نمونه های مصنوعی پیشنهاد گردیده است. در روش پیشنهادی از الگوریتم smote و الگوریتم رقابت استعماری برای نمونه برداری در دو سطح داده ها و الگوریتم ها استفاده شده است. به نوعی ترکیبی از دو سطح می باشد .این روش بر روی ده مجموعه داده پیاده سازی گردیده است . نتایج نشان می دهد که روش پیشنهادی با استفاده از الگوریتم های کلاس بندی درخت تصمیم و شبکه عصبی می تواند یک رویکرد مفید و موثر در حل مشکل دسته بندی داده های نامتوازن باشد . به نوعی خطای دسته بندی کلاس اقلیت را کاهش می دهند و دسته بندی آنها با دقت بالاتری انجام می شود.