مسعود فرکی

نام پژوهشگر: مسعود فرکی

بازشناسی بر خط و بدون محدودیت دست نوشته فارسی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده مهندسی برق و کامپیوتر 1388
مسعود فرکی مازیار پالهنگ

بازشناسی برخط نوشتار یکی از دشوارترین زمینه های شناسایی الگو و هوش مصنوعی بوده و همواره مورد توجه خاص محققان قرار گرفته است. پیچیدگی این زمینه, هنگام برخورد با زبان هایی مثل فارسی و عربی که حروف آن ها باتوجه به موقعیت شان در کلمه, شکل های متفاوتی به خود می گیرند, دوچندان می شود. تحلیل دست نوشته ی فارسی یا عربی در مقایسه با زبان های لاتین، به علت حضور اجزای کوچکی ("نقطه", "دونقطه" و ...) بالا یا پایین حروف آن ها دشوارتر است. ورودی یک سیستم بازشناسی دست نوشته برخط, یک قلم و صفحه حساس مانند صفحات کامپیوترهای جیبی است. در زمینه بازشناسی برخط نوشتار عربی یا فارسی تحقیقات چندانی صورت نگرفته است. تعدادی از کارهای گزارش شده در این زمینه, محدود به بازشناسی حروف منفصل بوده و یا در زمینه بازشناسی لغات, شیوه نوشتاری خاصی برای کاربران, از پیش تعریف شده و بازشناسی انجام شده محدود به تعداد لغات موجود در یک فرهنگ لغت از پیش تعیین شده, بوده است. در این پروژه, نرم افزاری طراحی و پیاده سازی شده است که به صورت برخط, عمل بازشناسی کلمات دست نوشته فارسی که هر ترکیبی از حروف فارسی می توانند باشند را, انجام می دهد. علت اصلی درنظر گرفتن لغت نامه برای یک سیستم بازشناسی, کاهش فضای جستجو در مرحله رده بندی و در نتیجه, افزایش درصد موفقیت بازشناسی است. این دو مسیله به گونه ایی دیگر در سیستم پیشنهادی محقق شده اند. در مرحله طراحی سیستم, مشخصات مسیر حروف فارسی به همراه جزء کوچک مخصوص هر یک, ثبت می شوند. برای هریک از حروف و اجزای کوچک, یک نمونه از مدل مخفی مارکوف چپ به راست نیز در نظر گرفته می شود (به جز نقطه). در مرحله بکارگیری سیستم, بازشناسی برای هر کدام از زیرکلمات یک کلمه، مستقلاً انجام می شود. ابتدا پس از دریافت دنباله نقاط نوشته شده توسط کاربر, زیرکلمات به همراه اجزای کوچک شان بر اساس یک سیستم تصمیم گیری فازی، مرتب می شوند. سپس بازشناسی اجزای کوچک, انجام شده و رشته ای از اسامی آن ها ساخته می شود. ایده ی اصلی سیستم پیشنهادی, انجام یک مرحله تولید نامزدهای معتبر زیرکلمه, براساس رمز مسیرهای حروف و انطباق هم زمان رشته اجزای کوچک با اجزای کوچک حروف نامزد است. مرحله تولید نامزد, بر اساس یک الگوریتم پیشنهادی بیش بخش بندی بر مبنای خواص ساختاری حروف فارسی, عمل می کند. بعد از بیش بخش بندی بدنه ی یک زیرکلمه، گرافی از نقاط پیشنهادی آن ساخته و در ریوس آن اطلاعات مفیدی از جمله رمز مسیر و بردار ویژگی تا ریوس بعدی متصل نگهداری می شوند. رده بندی نهایی نیز با انتخاب ترکیب حروفی که احتمال عادی شده نسبی آن بر اساس ویژگی های استخراج شده, بیشینه باشد صورت می گیرد. احتمال عادی شده ی نسبی یک زیرکلمه برابر با مجموع احتمال های حروف آن تقسیم به تعداد حروف مذکور می باشد. احتمال یک حرف نیز بر پایه ی بردار وی‍ژگی آن و مدل مخفی مارکوف آن حرف است. به علت فقدان یک مجموعه آموزشی استاندارد در زمینه بازشناسی برخط کلمات فارسی, مجموعه ای برای ارزیابی سیستم که شامل 200 لغت است و توسط 9 نفر نوشته شده اند, تهیه شده است. نتایج عملکرد سیستم بازشناسی بر اساس نرخ بازشناسی کلمات و زیرکلمات ارایه شده و حاکی از دقت مطلوب آن در هر دو نوع آزمایش وابسته به نویسنده و مستقل از نویسنده می باشد.

۱۵ صفحه ی اول