نام پژوهشگر: نوید شیدایی

متن کاوی متون فارسی : در راستای پیش پردازش و دسته بندی مقالات خبری فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1391
  نوید شیدایی   محمد حسین سرایی

امروزه میزان اطلاعات و مستندات متنی روز به روز در حال گسترش است. نامه های الکترونیکی، صفحات وب، متون خبری، مقالات علمی و ... تنها بخشی از این اطلاعات رو به افزایش است. این اطلاعات گسترده دربردارنده یک دانش پنهان می باشند. فراهم کردن ابزاری که بتواند به طور موثر و کارا این اطلاعات گسترده و دانش پنهان درون آن را شناسایی، استخراج و مدیریت کند امری مهم و ضروری است. یکی از روش های مهم در راستای براورده کردن این نیاز کاربران، استفاده از تکنیک های متن کاوی همانند روش-های دسته بندی خودکار متون است. با کمک دسته بندی متون می توان اسناد را به یک یا چند دسته ی از پیش معرفی شده، منتسب کرد. از جمله کاربردهای دسته بندی می توان به رده بندی اسناد خبری، صفحات وب، پیام های الکترونیکی، فیلترینگ و ... اشاره کرد. با توجه به اهمیت موضوع و کارهایی که در این زمینه برای زبانهای دیگر دنیا انجام شده است، نیاز به رده بندی متون پارسی به خوبی احساس می شود. در این پایان نامه به ابعاد مختلف رده بندی متون پارسی پرداخته شده است. در ابتدا مسئله پیش پردازش و ریشه یابی کلمات مورد بررسی قرار گرفته است و با ارائه راهکارهایی سعی در بهبود فرایند پیش پردازش متون پارسی شده است. در روش ارائه شده با مطالعه ساختار ریخت شناسی زبان پارسی و با کمک گیری از جداول جستجو، سعی می شود ریشه یکسانی برای کلمات همگون یافته و نتایج را در قالب لیستی از کلمات ریشه یابی شده ذخیره کند. در ادامه الگوریتمی برای رده بندی متون ارائه شده است. این الگوریتم در رده الگوریتم های رده بندی انجمنی قرار می گیرد و به این صورت کار می کند که ابتدا آیتم های پرتکرار مرتبط به هر برچسب کلاس را پیدا می کند. با این کار کلماتی که از لحاظ معنایی در متون مختلف تاثیر گذارترند یافته می شوند. سپس به جای بررسی کلیه آیتم ها در تولید قوانین، تنها به بررسی آن آیتم های پر تکرار برای هر برچسب کلاس پرداخته می شود. در یافتن آیتم های پرتکرار از گونه ای از الگوریتم apriori استفاده شده است. که ابتدا آیتم های پایگاه داده را به صورت بیتی ذخیره می کنید و سپس با اعمال عملگر های بیتی به یافتن آیتم های پرتکرار می پردازد. الگوریتم ارائه شده توانایی پیشنهاد چند برچسب برای یک سند ناشناخته را نیز دارا می باشد، بنابر این می توان آن را در رده الگوریتم های رده بندی چند برچسبه نیز در نظر گرفت. به این معنی که در هنگام رده بندی اسناد، می توان سند ناشناخته را به چندین رده منتسب نمود. به منظور بررسی میزان کارایی روش های ارائه شده، آنها را با الگوریتم های شناخته شده هر بخش، با ثابت نگه داشتن سایر بخش ها، مقایسه نموده ایم. پس از بررسی نتایج و مقایسه معیارهای گوناگون ارزیابی کارایی، به این نکته رسیدیم که در مقایسه ها روش های پیشنهادی کارایی بسیار خوبی نسبت به روش های موجود دارند