نام پژوهشگر: حامد فرزانه فر

ارائه روش هایی برای مسئله ریشه یابی در زبان فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1389
  حامد فرزانه فر   محمد رضا احمد زاده

امروزه پیشرفت امکانات نرم افزاری و سخت افزاری، موجب آسانی ذخیره شدن مقادیر زیادی داده شده است. تعداد مستندات متنی روز به روز در حال افزایش است؛ نامه های الکترونیکی، صفحات وب، متون خبری و مقالات تنها بخشی از این گستره رو به افزایش هستند. بنابراین نیاز به تکنیک های متن کاوی همانند روش های خودکار برای رده بندی متون و بازیابی اطلاعات احساس می شود. در مسئله های متن کاوی ریشه یابی کلمات جزء مهم ترین مراحل می باشد. ریشه یابی به معنی تبدیل کلماتی که ریشه ی یکسان دارند به یک ریشه ی واحد است. ریشه یابی به منظور افزایش کارایی در متن کاوی و کاهش فضای خصیصه انجام می شود. تاکنون روش های مختلفی برای ریشه یابی کلمات در زبان های مختلف ارائه شده است. در زبان فارسی نیز در زمینه ی ریشه یابی روش هایی پیشنهاد شده است که هر یک دارای معایب و مزایایی هستند، ولی روشی کلی که در متن کاوی در زبان فارسی از آن استفاده کنند و میزان کارایی بالایی نیز داشته باشد معرفی نشده است. برای بهبود کارایی ریشه یابی در زبان فارسی در این پایان نامه دو روش جدید ارائه شده است. روش اول بر اساس مطالعه ی ساختار ریخت شناسی زبان فارسی پیاده سازی شده است. این روش یک روش ترکیبی است. در این روش جدول جستجو و اتوماتا برای یافتن ریشه مورد استفاده قرار می گیرند. این روش یک روش ایستا بوده و انعطاف پذیری بالایی ندارد به همین دلیل دچار بعضی خطاها در ریشه یابی کلمات می شود. روش دوم نیز مانند روش اول یک روش ترکیبی است. بخش اول این روش مانند روش اول با استفاده از جدول جستجو پیاده سازی شده است. قسمت دوم این روش با استفاده از الگوریتم یادگیری درخت تصمیم گیری پیاده سازی شده است. از آنجایی که روش های یادگیر پویا هستند، بخشی از ضعف های روش اول پوشانده می شوند. در نهایت به منظور مقایسه کارایی از یکی از الگوریتم های ریشه یابی متداول در زبان فارسی استفاده کردیم. همچنین یک پیش پردازش کامل برای متون فارسی پیشنهاد گردید. برای بررسی کارایی از دو روش رده بندی متون با استفاده از چندین الگوریتم معمول رده بندی و روش بازیابی اطلاعات استفاده شد. پس از بررسی نتایج به این نکته رسیدیم که در مقایسه ها روش های پیشنهادی کارایی بسیار خوبی دارند. همچنین مشاهده شد پیش پردازش پیشنهادی تاثیر بسیار بالایی بر کارایی رده بند و سیستم بازیابی اطلاعات دارد.