نام پژوهشگر: حسین اسکندر

بهبود دسته بندی اتوماتیک متن به کمک پروفایلینگ: سیسیتم gnp
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1387
  حسین اسکندر   محمدرضا مطش بروجردی

یکی از رویکردهای مهم در دسته بندی متن، استفاده از پارادیم یادگیری ماشین می باشد. در این رویکرد، نمایش متون و الگوریتم دسته بندی، دو عنصر اساسی برای دسته بندی بهینه متون به شمار می آیند. در طی سه دهه گذشته، روشهای گوناگونی هم در زمینه نمایش متون و هم در زمینه الگوریتمهای دسته بندی معرفی شده است که در بخش اول و دوم این نوشتار به طور اجمالی به بررسی آنها می پردازیم. برخلاف تمامی رویکردهای پیشین دسته بندی متن که بطور مستقیم، لغات یا عبارات داخل متون را به بردارهای متناظرشان نگاشت می کنند، در این پروژه برای بدست آوردن این بردارها، از یک الگوریتم یادگیری استفاده شده است که آنرا gnp (generalized noun phrase) می نامییم. اساس این رویکرد از یک پروسه عمومی سازی/اختصاصی سازی بر روی عناصر بردار پیروی می کند. از آنجاییکه در یک جمله، عبارات اسمی از بار معنایی به نسبت بالایی برخوردار می باشند، از عبارات اسمی بعنوان عناصر سازنده این بردارها استفاده شده است. بدین ترتیب می توان یک رابطه شمول بر روی کلمات تشکیل دهنده آن عبارت اسمی تعریف کرد. همچنین در این پروژه به معرفی خوشه های مستتر در هر دسته پرداخته شده است که متناسب با هر خوشه، پروفایلی تعریف می کنیم که شامل عبارات اسمی متعلق به متون آن خوشه می باشد. این پروفایلها در واقع مبنای شروع این روش یادگیر بشمار میرود. با بکارگیری از دو فرآیند عمومی سازی و اختصاصی سازی در یک استراتژی موفق که جزییات آن را بیشتر ملاحظه خواهید کرد، می توانیم عبارات اسمی موجود در هر پروفایل را بر حسب نیاز خلاصه/بسط دهیم. حاصل این عملیات، یادگیری عباراتی است که بهتر می توانند دسته متناسب با خود را توصیف کنند. بدین ترتیب با گنجاندن عبارات اسمی غنی شده متعلق به یک دسته در یک بردار می توانیم آنرا به یکی از دسته بندی کننده های متعارف عرضه کرد تا با استفاده از آن بتوان متون تست را برچب بزند. از آنجاییکه که رویکرد gnp وابسته به دسته بندی کننده خاصی نیست، میتوانیم از هر کدام از الگوریتم های دسته بندی متن متعارف استفاده کنیم. بدین ترتیب ما در این پروژه از دو دسته بندی کننده k- امین نزدیکترین همسایه (k-nn) و ماشین بردار پشتیبان (svm) بعنوان دسته بندی کننده استفاده کرده ایم که نتایج آن بر روی مجموعه داده های 20-newsgroups بقرار ذیل می باشد : ارتقای دقت دسته بندی gnp مبتنی بر k-nn نسبت به k-nn متعارف، بر اساس دو معیار ارزیابی macro-fl و micro-fl مقادیر بترتیب از 72? به 5/84? و از 5/69? به 82? ارتقاء می یابد. همچنین اعمال رویکرد gnp با استفاده از دسته بندی کننده svm، نتیجه مشابهی را نسبت به svm استاندارد بهمراه دارد : ارتقای دقت دسته بندی بر اساس دو معیار ارزیابی macrp-fl و micro-fl به ترتیب از 6/83? به 03/91? و از 63/78? به 32/88? حاصل می شود.