نام پژوهشگر: نیلوفر افشاری ابولکرلو

بهبود طبقه بندی داده های نامتوازن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تحصیلات تکمیلی صنعتی کرمان - دانشکده برق و کامپیوتر 1393
  نیلوفر افشاری ابولکرلو   علی اکبر نیک نفس

یکی از حوزه های مهم در داده کاوی طراحی الگوریتم های کلاس بندی با دقت بالا است. این امر به ویژه در شرایطی که داده ها دارای پراکندگی نامتوازن باشند، پیچیدگی بیشتری پیدا می کند. یادگیری کلاس نامتوازن به یادگیری از مجموعه داده های نامتوازن اشاره دارد که در آن تعداد نمونه های کلاس گروه اقلیت به طور قابل توجه ای کمتر از نمونه های کلاس گروه اکثریت است. به توجه به اینکه اکثر الگوریتم های یادگیری، طبقه بند را براساس این فرض که تعداد نمونه های آموزش از هرکلاس با هم برابر است، آموزش می دهند، زمانی که این الگوریتم ها را به مجموعه داده های نامتوازن اعمال می کنیم، طبقه بند یادگرفته شده غالباً از کلاس اکثریت منتج می شود که این موضوع باعث پیش بینی بسیار ضعیف کلاس اقلیت می شود، زیرا آموزش کلاس اقلیت به درستی انجام نشده است. در اغلب موارد، کاربر تمایل بیشتری به پیش بینی نمونه های کلاس اقلیت دارد، بنابراین کنترل و حل مسأله داده ی نامتوازن برای بهبود کارآیی امری ضروری است. طبقه بند ترکیب جمعی به عنوان یک راه حل ممکن رفع مشکل داده های نامتوازن، توجه بسیاری از محققان را جلب کرده است. هدف اصلی از روش ترکیب جمعی، بهبود عملکرد یک طبقه بند با ایجاد چند طبقه بند پایه و ترکیب آن ها برای به دست آوردن طبقه بندی جدید است که بهتر از هر یک از طبقه بندهای پایه، عمل می کند. در این پایان نامه دو الگوریتم ترکیب جمعی ناب و جدید، برای طبقه بندی داده های نامتوازن معرفی شده است. در الگوریتم های پیشنهادی، مجموعه داده های آموزش بعد از اعمال یک مرحله پیش پردازش داده ها، با استفاده از تکنیک خوشه بندی، به تعدادی خوشه در لایه های مختلف شکسته می شوند و طبقه بندهای پایه، روی نمونه های هر خوشه آموزش می بینند. در روش پیشنهادی اول از الگوریتم خوشه بندی سلسله مراتبی و در روش پیشنهادی دوم از الگوریتم خوشه بندی کاهشی استفاده شده است. پیاده سازی روش های پیشنهادی روی مجموعه داده های مشهور و مقایسه ی آن با روش های معروفی مانند smotebaggingو smoteboost نشان می دهد که روش های پیشنهادی عملکرد قابل قبولی دارند.