نام پژوهشگر: اتوسا سالاری

شناسایی داده های نامتعارف با استفاده از روش های آماری نیمه نظارتی در شرایط تغییر توزیع متغیر
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی کامپیوتر 1392
  اتوسا سالاری   اشکان سامی

یکی از حوزه های مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت می باشد. روش های بسیاری برای شناسایی داده پرت ارائه شده که همه آن ها از فرض یکسان بودن توزیع احتمال داده های تست نسبت به داده های آموزش پیروی می کنند. اما در بسیاری از برنامه های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع داده های آموزش و تست امری محتمل است. زمانی که داده های ورودی آموزش و تست از توزیع غیر یکسانی پیروی کنند در حالی که توزیع خروجی به شرط ورودی در آن ها ثابت بماند، با شرایط تغییر (توزیع) متغیر روبرو خواهیم بود. مطالعات ما نشان می دهد که برای شناسایی داده نامتعارف تحت این شرایط تاکنون راه حلی ارائه نشده است. در این تحقیق دو روش نیمه نظارتی تطبیق پذیر با شرایط تغییر توزیع متغیر برای شناسایی داده پرت ارائه شده است که هر دو روش از یک تکنیک وزن دهی بر اساس اهمیت برای تطبیق پذیری استفاده می کنند. ایده اصلی در روش اول ترکیب تکنیک رگرسیون وزن دار با تکنیک شناسایی داده نامتعارف است. در روش دوم نیز با مقایسه چگالی داده تست نسبت به داده های نرمال آموزش با وزن بیشتر، نسبت به شناسایی داده نامتعارف اقدام می کنیم. نتایج آزمایشات نشان می دهند که از نظر تطبیق با شرایط تغییرتوزیع متغیر روش های پیشنهادی عملکرد بهتری نسبت به روش های موجود برای شناسایی داده نامتعارف دارند.