آلاله مسکوکی

نام پژوهشگر: آلاله مسکوکی

طبقه بندی داده ها با استفاده از برنامه ریزی ریاضی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده علوم ریاضی 1390
آلاله مسکوکی حسین تقی زاده کاخکی

در این پایان نامه، به معرفی مسأله طبقه بندی پرداختیم و برخی از روش های رایج برای حل این مسأله از جمله روش بیز، شبکه عصبی، درخت تصمیم و توابع جداکننده را به طور مختصر شرح دادیم. روش برنامه ریزی ریاضی، که بر پایه تولید رویه ها در فضای ویژگی ها است، برای حل مسأله طبقه بندی خصوصاً برای حالت دوگروهی به دلیل دقت بالای آن در کاربرد های عملی، تاکنون بسیار مورد مطالعه قرار گرفته است. یکی از تعمیم های مدل برنامه ریزی خطی، تولید چندوجهی ها برای تخمین مرزهای غیرخطی و افراز فضای ویژگی ها است. مدل mcp یک روش بر پایه یک مدل برنامه ریزی عدد صحیح برای حل مسأله چندگروهی است که توسط خو و پاپاجئورجیو [107] ارائه شده است. در این روش، ابتدا یک مدل برنامه ریزی عدد صحیح حل می شود و k ناحیه به صورت ابرمکعب هایی در فضای ویژگی ها، با هدف مینیمم کردن تعداد داده های نادرست طبقه بندی شده، تولید می شود به طوری که هر ابرمکعب به یک کلاس از داده ها اختصاص می یابد. سپس برای افزایش دقت طبقه بندی، با یک الگوریتم تکراری، ابرمکعب های بیشتری به ازاء هر کلاس تولید می شود تا زمانی که اضافه کردن ابرمکعب جدید باعث بهتر شدن جواب نگردد. از نقاط قوت الگوریتم mcp دقت بالای آن، به ویژه، بر روی داده هایی با نواحی مجزا و دارای درهم رفتگی زیاد است. اما از طرف دیگر، در هر تکرار الگوریتم mcp، یک مدل برنامه ریزی عدد صحیح با پارامتر های جدید، حل می شود که این امر باعث افزایش زمان محاسباتی و در نتیجه کاهش کارایی روش بر روی مجموعه هایی از اندازه بزرگ می گردد. در فصل آخر پایان نامه، تغییراتی را در الگوریتم mcp پیشنهاد کردیم که اعمال آن، زمان محاسباتی را به طور قابل ملاحظه ای کاهش می دهد. ایده الگوریتم پیشنهادی (mcpm)، استفاده از مرزهای به دست آمده از تکرارهای قبل و کنارگذاشتن داده های درست طبقه بندی شده است. این کار، باعث حذف تعداد زیادی متغیر صفر و یک می شود و در نتیجه زمان محاسباتی گام به گام کاهش می یابد. علاوه بر متغیرهای عدد صحیح متناظر با هر یک از داده ها، تعداد زیادی از متغیرهای صفر و یک، که به منظور عدم تداخل ابرمکعب های غیر هم کلاس در نظر گرفته شده اند، نیز کاهش می یابند. در بخش 1.2.5 نشان دادیم که تعداد این متغیرها در مدل mcp همواره از mcpm بیشتر است و افزایش این تعداد در mcp از مرتبه 2 و در mcpm از مرتبه 1 است. عملکرد دو الگوریتم mcp و mcpm، توسط سه مجموعه داده واقعی مقایسه شده است. نتایج محاسباتی بر روی این مثال ها نشان می دهند که mcpm کمی از دقت mcp می کاهد و در عوض سرعت را به طور قابل ملاحظه ای بالا می برد. از آن جایی که در برخی از کاربردهای عملی، زمان ارزشمندتر از دقت بالا است، mcpm را می توان به عنوان روشی که در زمانی کمتر از mcp، جوابی با دقت تقریباً بالا به دست می دهد، به کار برد. اگر چه روش پیشنهادی بر روی مجموعه های از اندازه کوچک و متوسط ارزیابی شده است و بررسی های بیشتری لازم است تا کارایی الگوریتم را بر روی مثال های بزرگ تر با خصوصیات متفاوت، اندازه گیری کند. لازم به ذکر است که mcpm، همانند روش هایی مثل lda، smo و بسیاری از مدل های برنامه ریزی ابرصفحه ای مثل dea-daبرای طبقه بندی داده هایی با نواحی مجزا مناسب نیست. روش mcpm می تواند یک نقطه شروع نزدیک به بهینه را فراهم کند. همچنین، این روش را می توان به صورت ترکیبی با الگوریتم های طبقه بندی دیگر به کار برد.

۱۵ صفحه ی اول