نام پژوهشگر: سعید سرابی نوبخت

بازشناسی مستقل از اندازه متون چاپی فارسی با استفاده از توصیفگرهای مستقل از مقیاس و روش های انتخاب ویژگی
پایان نامه دانشگاه تربیت معلم - تهران - دانشکده فنی 1392
  سعید سرابی نوبخت   جمشید شنبه زاده

این پایان نامه در خصوص بازشناسی متون چاپی فارسی و عربی به صورت مستقل از اندازه قلم است. بازشناسی آخرین مرحله در فرآیند ocr می باشد. در مراحل قبل انواع نویزها و چرخش موجود در تصویر برطرف شده، و ویژگی های مورد نظر از تصویر استخراج شده است. در روش پیشنهادی سیستم برای هر قلم فقط در یک اندازه مشخص آموزش داده می شود و پس از آن با دقت قابل قبولی در بازه ای از اندازه ها قادر به بازشناسی متون چاپی فارسی و عربی خواهد بود. همچنین در این سیستم فرآیند قطعه بندی و بازشناسی کاراکترها به صورت همزمان انجام می شود. اساس این روش بر استفاده از توصیفگرهای sift و مکانیزم پنجره لغزان استوار است. این توصیفگرها علاوه بر اینکه ساختار تصویر را به خوبی بیان می کنند، نسبت به برخی تغییرات مانند تغییر در مقیاس مقاوم هستند. علاوه بر توصیفگرهای sift، از تعدادی ویژگی های دیگر برای بالابردن میزان صحت بازشناسی استفاده شده است. به منظور افزایش کارایی، در روش پیشنهادی فضای حالت براساس موقعیت کاراکتر در کلمه به چهار حالت ابتدایی، میانی، پایانی و منفرد تقسیم، و برای هریک از این حالات یک کلاس بند در نظر گرفته شده است. همچنین در هریک از این چهار کلاس بند، با استفاده از مکانیزم وزن دهی به ویژگی ها، نرخ بازشناسی بهبود یافته است. فرآیند آموزش در این سیستم نسبت به سایر سیستم ها بسیار سریع تر است زیرا به ازای هر قلم، سیستم فقط در یک اندازه و روی تعداد اندکی سمبل آموزش می بیند. در پیاده سازی مرحله بازشناسی نیز، با استفاده از تکنیک هایی چون حافظه اشتراکی، مالتی ترد و توزیع پردازش روی هسته های پردازشی، سرعت اجرای الگوریتم بیش از 20 برابر نسبت به حالت عادی بهبود یافته است. الگوریتم پیشنهادی روی سه مجموعه داده pats ، apti و مجموعه داده حاصل از ocrdsg در حالت های مختلف تست شده است. نرخ بازشناسی در سطح کاراکتر برای مجموعه داده pats در بازه 98.13 تا 100 درصد و برای مجموعه داده apti در بازه 96.82 تا 100 درصد است. همچنین سیستم پیشنهادی روی مجموعه داده بدست آمده از ocrdsg به ازای هفت قلم فارسی متداول و در 13 اندازه مختلف، بر موتور بازشناسی tesseract پشتیبانی شده توسط گوگل غلبه دارد. در این حالت نرخ بازشناسی سیستم در سطح کاراکتر در بازه 97 تا 100 درصد است. نتایج این تست ها از عملکرد بسیار خوب این الگوریتم خصوصاً در اندازه های نزدیک به اندازه آموزش سیستم حکایت دارد. سیستم پیشنهادی تقریباً بر همه سیستم های شرکت کننده در مسابقه ذکر شده در متن پایان نامه غلبه می کند. توجه شود که این سیستم فقط برای یک اندازه آموزش داده شده و فاقد هرگونه لغتنامه و یا مرحله پس پردازش است. با آموزش سیستم برای اندازه های مختلف، نرخ بازشناسی در تمامی حالت ها به بیش از 99% می رسد.