طبقه بندی داده های نامتعادل با استفاده از روش های نمونه برداری و یادگیری حساس به هزینه

پایان نامه
چکیده

مسأله طبقه بندی داده های نامتعادل یکی از مسائلی است که اخیراً توجه زیادی از مهندسین و محققین را به خود جذب کرده است. داده¬های نامتعادل در واقع نوعی از داده¬هاست که در آن تعداد نمونه¬های یک کلاس نسبت به دیگر کلاس¬ها بسیار بیشتر (یا بسیار کمتر) است. در نتیجه الگوریتم¬های طبقه¬بندی¬کننده به کلاس اکثریت بایاس شده و در بیشتر موارد کلاس نمونه¬های ورودی جدید را از نوع اکثریت تشخیص می¬دهد که این امر منجر به کاهش کارایی آنها در مواجهه با این نوع داده می¬شود. یکی از پرکاربردترین تکنیک هایی که جهت برخورد با داده های نامتعادل به کار می رود، تغییر توزیع کلاس ها با روش های رایجی چون تکنیک های افزایش نمونه یا کاهش نمونه و همچنین سازگار کردن طبقه¬بندی¬کننده¬ها است. در این پایان¬نامه دو راهکار برای افزایش کارایی طبقه¬بندی کننده¬ها در مواجهه با داده¬های نامتعادل ارائه شده است. ایده اصلی در روش پیشنهادی اول استفاده از دو معیار تنوع و تفکیک پذیری در افزایش نمونه ی کلاس اقلیت است که معیار تنوع در جهت کاهش بیش یادگیری و معیار تفکیک پذیری با جلوگیری از تولید نمونه های ریسک پذیر، تأثیر مثبتی در متعادل سازی توزیع کلاس ها داشته است. روش پیشنهادی اول بر روی 11 مجموعه داده ای با سه نوع طبقه¬بندی¬کننده بر اساس شش معیار ارزیابی با چهار روش پیشین مورد مقایسه و ارزیابی قرار گرفته است. در روش پیشنهادی دوم طبقه¬بندی بیز ساده، به گونه¬ای تغییر داده شده است که در طبقه¬بندی کلاسهای اکثریت و اقلیت هزینه¬های متفاوتی را اعمال نماید. در این روش از ماتریس جریمه مناسب، به منظور کاهش بایاس طبقه-بندی¬کننده به سمت کلاس اکثریت استفاده شده است. نتایج کار بر روی نه مجموعه داده ای و با بهره گیری از شش معیار ارزیابی داده های نامتعادل و با استفاده از منحنی هزینه نهایی، دقت و عملکرد طبقه¬بندی¬کننده بیزین ساده با طبقه¬بندی¬کننده استاندارد مورد ارزیابی قرار گرفته است. طبق نتایج به دست آمده دقت روش پیشنهادی در بیشتر موارد افزایش یافته و یا قابل مقایسه با طبقه¬بندی¬کننده استاندارد می باشد و از طرفی با اعمال ماتریس جریمه، هزینه نهایی طبقه¬بندی¬کننده حساس به هزینه در بیشتر موارد، پایین تر از طبقه¬بندی¬کننده بیزین ساده استاندارد می باشد.

منابع مشابه

طبقه بندی سواحل چابهار از دیدگاه واکنش های خط ساحلی با استفاده از روش های تجربی

طبقه بندی سواحل با توجه به ویژگی های امواج، کشند، رسوب و شرایط مورفودینامیکی باعث شناخت عمده ای از ساحل می شود. بندر چابهار از نظر اقیانوس شناسی، سیاسی و اقتصادی از اهمیت زیادی برخوردار است. در این تحقیق، با در نظر گرفتن پارامترهای بدون بعد، واکنش های خط ساحلی بر اساس شرایط هیدرودینامیکی با استفاده ازسه روش هانسن، هایس و مسلینک و شرت در سه ایستگاه در خلیج چابهار و بر اساس داده های میدانی موج و ...

متن کامل

طبقه بندی سنگ ‏های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی

پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینه‏ها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار می‏باشد. بنابراین شناخت کامل سنگ‏های ساختمانی و ارزیابی توان اجرایی دستگاه‏های برش در کارخانه‏های فرآوری، طراحان و برنامه‏ریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق می‏دهد. از اینرو، به کارگیری روش‏های نو و کاربردی برای دست‏یابی به این اه...

متن کامل

تخمین بعد ذاتی و کاهش ابعاد داده های فراطیفی به منظور طبقه بندی با استفاده از روش های درخت تصمیم، ماشین بردار پشتیبان و شبکه عصبی

طبقه­ بندی تصاویر فراطیفی، به دلیل کاربردهای برجسته این تصاویر در حوزه­ های مختلف مانند نظامی، مدیریت و برنامه­ ریزی شهری، مدیریت منابع و کشف معادن، یکی‌ از مسائل بسیار مهم در پردازش تصاویر فرا­طیفی به شمار می‌‌آید. تصاویر فراطیفی به دلیل دارا بودن توان تفکیک طیفی بالا، اطلاعات قابل توجهی در ارتباط با ترکیب شی‌ با صحنه تصویر­برداری در اختیار کاربر قرار می­دهند. بزرگی ابعاد این تصاویر نه تنها مح...

متن کامل

روشی نوین به منظور طبقه بندی داده های چند بازگشتی لایدار با استفاده از اطلاعات هندسی مجاورتی و فضای پدیده

داده‌های اخذ شده توسط سیستم‌های لیزر اسکنر هوایی به دلیل برخورداری از مزایایی نظیر دقت هندسی نسبتاً بالا و تراکم مکانی بالای نقاط، اطلاعات هندسی متنوع و منحصر به فردی از سطوح فیزیکی عوارض فراهم می‌آورند. طبقه‌بندی و تفکیک داده‌<...

متن کامل

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

طراحی نظام شناسایی و طبقه بندی ابعاد آسیب های اجتماعی معطوف به شبکه های اجتماعی با استفاده از روش فراترکیب

امروزه بررسی آسیب‌های اجتماعی معطوف به شبکه‌های اجتماعی مورد توجه بسیاری از محققان قرار گرفته است. هدف این پژوهش آن است که آسیب‌های اجتماعی معطوف به شبکه‌های اجتماعی را شناسایی و طبقه‌بندی کند. به همین دلیل با استفاده از روش فراترکیب، نتایج پژوهش‌های پیشین مورد تجزیه و تحلیل قرار گرفت. از سال‌های 1386 تا 1396 از بین 161 مقاله، درنهایت 56 مقاله برای تجزیه و تحلیل انتخاب شدند. نتایج پژوهش نشان می...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023