پریسا سعیدی پور

نام پژوهشگر: پریسا سعیدی پور

دسته بندی مجموعه داده های نامتوازن با استفاده از روش های یادگیری ماشین

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شهید چمران اهواز - دانشکده مهندسی 1394
پریسا سعیدی پور علی رضا عصاره

یکی از مسائل مهم در زمینه داده کاوی، مسأله دسته بندی مجموعه داده های نامتوازن است. اصطلاح «مجموعه داده نامتوازن»، عموما به مجموعه داده ای گفته می شود که تعداد نمونه ها در کلاس های گوناگون، اختلاف بسیاری داشته باشند. در این نوع داده ها، به کلاس هایی که کم ترین تعداد نمونه ها را دارند، کلاس اقلیت گفته می شود. به دلیل این که اکثر الگوریتم های یادگیری، یک دسته بند را با فرض برابر بودن تعداد نمونه های آموزشی هر کلاس آموزش می دهند، بنابراین زمانی که این الگوریتم ها را به مجموعه داده های نامتوازن اعمال می کنیم، دسته بند آموزش داده شده، غالبا براساس نمونه های کلاس اکثریت آموزش می بیند. این موضوع به پیش‏ بینی بسیار ضعیف نمونه های کلاس های اقلیت منجر می شود، زیرا آموزش کلاس اقلیت به درستی انجام نشده است. در بسیاری از موارد، کاربران تمایل بیشتری به دسته بندی صحیح نمونه های کلاس های اقلیت دارند. در این پایان نامه هدف این است، روش هایی برای دسته بندی ارائه شوند که علاوه بر بهبود دسته بندی در داده های کلاس های اقلیت، قابلیت دسته بندی داده های کلاس های اکثریت نیز، در سطح قابل قبولی حفظ شود. درراستای دسته بندی صحیح نمونه ها، ابتدا یک روش انتخاب ویژگی مبتنی بر الگوریتم ریلیف - اف، برروی مجموعه داده ها اعمال و سپس سه الگوریتم ترکیبی بگینگ، آدابوست و جنگل تصادفی جهت دسته بندی داده ها، مورد استفاده قرار گرفته اند. به منظور آموزش دسته بندها، از روش های حساس به هزینه که این هزینه ها براساس الگوریتم رقابت استعماری تعیین شده اند، کمک گرفته شده است. روش پیشنهادی بهینه ی مبتنی بر الگوریتم ترکیبی بگینگ، کارایی میانگین 84.98 درصد، برروی 8 مجموعه داده نامتوازن تولید نموده است.