نام پژوهشگر: رضا مصلح فسایی

تشخیص صحیح کلمات هم آوا در متون فارسی با استفاده از تکنیک متن کاوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز 1392
  رضا مصلح فسایی   محمد هادی صدرالدینی

نوشتار کلمات فارسی به دلیل وجود حروف هم آوا پیچیده می باشد. افراد برای یادگیری املای کلمات باید با تمرین و ممارست آن را بیاموزند. نرم افزارهایی تحت عنوان غلط یاب جهت بررسی املای کلمات فارسی ارائه شده اند که با مقایسه نوشتار کلمات با دانش موجود در نرم افزار، صحت آنها را تشخیص می دهند. در این میان صحت برخی کلمات بر اساس متن مشخص می-شود (ممکن است کلمات از نظر املایی صحیح، ولی بر اساس متن جمله اشتباه باشند.). این کلمات توسط غلط یاب ها شناسایی نمی شوند و نیاز است که به طور مستقل مورد بررسی قرار گیرند. کلمات هم آوا شامل این دسته از کلمات می باشند. در این طرح هدف آن است که با بررسی نوشتار کلمات هم آوا در متون فارسی و محاسبه فرکانس تکرار ریشه کلماتی که در فواصل مختلف نسبت به کلمه ی هم آوا قرار گرفته اند، کلمات را امتیازدهی و برای تشخیص نوشتار کلمه ی هم آوا استفاده کنیم. در این طرح جهت بالابردن دقت الگوریتم، یک ریشه یاب مبتنی بر قواعد ساختواژی زبان فارسی ارائه شد که برای برخی کلمات تا 14.7 درصد بازده الگوریتم را نسبت ریشه یاب های موجود افزایش داد. تاثیر کلمات در همسایگی کلمه هم آوا برای برخی موارد تا 9 درصد محاسبه شد. تاثیر فاصله کلمات تا کلمه هم آوا در تشخیص نوشتار کلمه هم آوا 2 درصد محاسبه شد. نهایتا دقت روش ارائه شده به 93.1 درصد رسید.