نام پژوهشگر: محمد علیپور سراجی

تشخیص برون خط کلمات دست نوشته فارسی به کمک بلوک بندی تطبیقی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و الکترونیک 1391
  محمد علیپور سراجی   علیرضا احمدی فرد

تشخیص خودکار متن یکی از زیر مجموعه های پردازش تصویر است که به طور گسترده در کتابخانه دیجیتال، خواندن آدرس پستی نامه ها، خواندن چک های بانکی، خواندن فرم ها و پرسشنامه ها استفاده می شود. بازشناسی متون دست نوشته فارسی در دو سطح کلی برون خط و بر خط انجام می پذیرد که سیستم های برون خط خود به دو دسته تقسیم می شود: سیستم های مبتنی بر جداسازی و سیستم های کلی نگر. در سیستم های مبتنی بر جداسازی سعی می شود کلمات به زیر کلمات و حروف سازنده آن تقسیم شوند و از آنها برای شناسایی استفاده شود اما در سیستم های کلی نگر، ویژگی ها مستقیما از تصویر کلی کلمه استخراج می شود و با مقایسه با داده های فرهنگ لغت، مشابه ترین کلمه به ورودی به عنوان خروجی در نظر گرفته می شود. در این تحقیق روشی برای بازشناسی کلمات دست نوشته فارسی با استفاده از شکل کلی کلمه ارائه شده است. مراحل کار برای شناسایی کلمه شامل: پیش پردازش(باینری کردن، رفع شکستگی، حذف نویز) ،استخراج ویژگی(گرادیان، پروفایل) و طبقه بند (svm،knn ) است. در مرحله پیش پردازش برای تخمین مکان خط کرسی، تغییراتی در روش هیستوگرام افقی انجام می شود. تشخیص خط کرسی به منظور جداسازی نقاط از بدنه اصلی و هم چنین برای نرمال سازی اجزاء بدنه اصلی ضروری است. در نتیجه فرایند پیشنهادی، از تصویر هر کلمه دو تصویر، یکی تصویر بدنه اصلی و دیگری تصویر نقاط و علائم حاصل می شود. برای استخراج ویژگی های کلمه در تصویر بدنه اصلی، پس از نرمال سازی جداگانه اجزای آن، از بلوک بندی تطبیقی و برای استخراج ویژگی از تصویر نقاط و علائم از بلوک بندی یکنواخت استفاده می کنیم. هر بلوک در تصاویر فوق توسط اندازه گرادیان در 32 جهت توصیف می شود. نتایج حاصل با استفاده از طبقه بندهای k نزدیکترین همسایگی و ماشین بردار پشتیبان نشان دهنده بهبود در دقت بازشناسی روش ارائه شده است اما به علت پیش پردازش های صورت گرفته، روش ارائه شده به زمان بیشتری نسبت به روش های پیشین نیازمند است. با خوشه بندی نمونه ها به منظور کاهش فرهنگ لغت نتیجه بهبود میابد. به منظور خوشه بندی نمونه ها از ویژگی های پروفایل و هیستوگرام افقی و الگوریتم isodata استفاده شده است.