زهرا یگانه فرد

نام پژوهشگر: زهرا یگانه فرد

بررسی روش های تطبیق پذیرسازی فاصله برای دسته بندی داده های نامتوازن

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر 1391
زهرا یگانه فرد محمد هادی صدرالدینی

دسته بندی داده ها یکی از موضوعات اساسی در داده کاوی است که کاربردهای مهم و حیاتی در مسایل دنیای واقعی مانند تشخیص بیماری، مدیریت ریسک و پیش بینی رفتارهای آتی دارد. روشهای عملی برای کار با داده های دنیای واقعی، درگیر مسایلی چون حجم زیاد داده ها، اطلاعات غیر-مفید یا نامناسب، تاثیرات نویز و عدم توازن می باشند. داده های جمع آوری شده، معمولاً دارای یک سری نمونه با ویژگی های مختلف براساس زمینه کاربرد است. اهمیت این نمونه ها و ویژگی ها در تصمیم گیری و دسته بندی متفاوت بوده و بعلاوه، تعداد نمونه ها در هر دسته می تواند بسیار متفاوت باشد. از این روی لازم است در دسته بندی، معیارهایی به منظور کشف اهمیت اطلاعات موجود، به کار گرفته شوند. مهمتر آنکه این معیارها علاوه بر دانش افراد خبره، باید براساس داده ها، یعنی ویژگی ها و تعداد داده های هر دسته، تطبیق یابند. امروزه، مساله عدم توازن یکی از مسایل چالش برانگیز در داده کاوی و یادگیری ماشین است. در بسیاری از روش های دسته بندی، از جمله روشهای بر پایه نزدیک ترین همسایه، برچسب گذاری بر اساس یک معیار فاصله و یافتن شباهت و نزدیکی داده ها انجام می شود. روشهای بسیاری به منظور تطبیق پذیرسازی معیار فاصله در الگوریتم نزدیکترین همسایه ارائه شده است. این روشها با افزودن پارامتر وزن محلی یا سراسری به نمونه ها و ویژگی ها کار می کنند. روش ارائه شده در این پایان نامه با یادگیری وزن محلی ویژگی ها سعی در افزایش نرخ تشخیص همه دسته ها در مورد مسایل نامتوازن دارد. در این روش از مفهوم بی نظمی یا انتروپی برای تشخیص اهمیت ویژگیهای مختلف در اطراف هر یک از داده ها استفاده شده است. بدین منظور، یک تابع هدف مشتق پذیر بر اساس پارامترهای وزن تعریف شده که می تواند توسط روش های رایج، بهینه سازی شود. در این روش، برای تشخیص وزن هر ویژگی در اطراف هر یک از داده ها، در قالب تابع هدف، یک معیار جدید بر اساس مفهوم انتروپی و بی نظمی تعریف شده است. از مزیتهای این معیار کاهش پیچیدگی زمانی الگوریتم و مشتق پذیر بودن تابع هدف است. در این پایان نامه به منظور ارزیابی الگوریتم یادگیری، ازمایشات متعددی بر اساس مجموعه داده های محک انجام شده که نشان دهنده کارایی مناسب روش ارائه شده است.