نام پژوهشگر: شاهین صلواتی

ارائه الگوریتم های ریشه‏یاب و غلط‏گیر برای متون زبان کردی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی 1392
  شاهین صلواتی   کیومرث شیخ‏اسمعیلی

زبان کردی که در دسته زبان های هندواروپایی می باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می گیرد. علی رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راه حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی (klpp) در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می باشد. این گزارش، خروجی های یک پایان نامه ارشد را که در چارچوب klpp به انجام رسیده است، گزارش می کند. اولین خروجی این پروژه، مجموعه پ?وان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی –دوگویش اصلی زبان کردی- می باشد. این مجموعه یک منبع زبان شناسی غنی محسوب می شود و بصورت گسترده در تمامی بخش های این پایان نامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پ?وان را به عنوان یک سنگ محک برای سیستم های بازیابی اطلاعات کردی، ایجاد می کنیم. پس از تولید این پیش نیاز ضروری، ما بر روی اهداف اصلی این پایان نامه، که شامل ساخت یک ریشه یاب، یک هسته یاب و یک غلط گیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص می باشد، تمرکز می کنیم. برای این هدف، ابتدا ژ?ده ر، یک ریشه یاب مبتنی برقاعده (پشتیبانی کننده از هر دو گویش سورانی و کرمانجی) ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان می دهیم. سپس، په ی?، یک هسته یاب مستقل از فرهنگ لغت را ارائه می کنیم، که توانایی استخراج هسته کلمات مشتق (افعال یا اسامی) را دارد. په ی?، مبتنی بر مجموعه ای از قواعد ساخت واژه می باشد، که آن ها را از گویش سورانی گردآوری کرده ایم. در نهایت، ??نووس را که یک ابزار غلط گیر متون سورانی می باشد، ارائه می کنیم. غلط گیر از روش های آماری، مبتنی برقاعده و فرهنگ لغت بهره می برد. ??نووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه می تواند یک لیست از جایگزین های بالقوه را به کاربر پیشنهاد کند. بسیار علاقه مندیم به این نکته اشاره شود که تمامی راه حل های ارائه شده در این پایان نامه، پیاده سازی و کارایی آن ها به صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبان شناسی و ابزارهای نرم افزاری ارائه شده در طول این پایان نامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است. امیدواریم که این کار، پژوهش های بیشتر در حوزه پردازش زبان کردی را موجب شود.