نام پژوهشگر: حامد عرب یارمحمدی

شناسایی کلمات فارسی تایپی در تصاویر درجه تفکیک پایین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده مهندسی برق و الکترونیک 1392
  حامد عرب یارمحمدی   علیرضا احمدی فرد

برای بازشناسی زیرکلمات فارسی سه رویکرد مبتنی بر جداسازی به حروف، مبتنی بر شکل کلی زیرکلمه و ترکیبی از این دو وجود دارد. در بسیاری از سازمان ها، تصاویر نامه ها با درجـه تفکـیک 150 نقطه بر اینچ و کمتر ذخیره می شوند. متنی با این درجه تفکـیک برای خواندن توسط کاربر انسانی مناسب است اما برای بازشناسی توسط سیستم شناسایی نوری کلمات این درجه تفکیک بسیار کم به نظر می رسد. حتی سیستم های شناسایی نوری کلمات لاتین هم غالبا برای 300 نقطه بر اینچ، توسعه یافته اند. در درجـه ی تفکـیک پایین ، جـداسازی به سخـتی امکان پذیر است و باید از روش هایی مانند شکل کلی استفاده نمود. در این پایان نامه به بررسی و بازشناسی زیرکلمات فارسی با درجـه تفکـیک 96 نقطه بر اینچ می پردازیم که برای این منظور از شکل کلی زیرکلمات برای بازشناسی آنها بهره برده ایم. سیستمی که در اینجا برای بازشناسی زیرکلمات فارسی ارائه شده مبتنی بر یک روش سه مرحله ای است . در مرحله نخست به کمک خوشه بندی، دامنه ی جستجوی تصاویر زیرکلمات موجود در فرهنگ لغت کاهش داده شده که این کار نه تنـها سرعت سیستم را بالا می برد بلکه دقت را نیز افزایش می دهد، در مرحله دوم بازشناسی، با استفاده از یک طبقه بند، 4 خوشه ی نزدیک به زیرکلمه ی آزمون ورودی تشخیص داده می شود و پس از آن با جستجو در میان آن خوشه های هدف، 10 نزدیک ترین زیرکلمات موجود در فرهنگ لغت، به زیرکلمه ی آزمون را می یابیم، این روند برای تمام زیرکلمات یک کلمه تکرار شده سپس در مرحله ی سوم با استفاده از روش رخدادهای محتمل برای توالی زیرکلمات، کلمه ی آزمون تشخیص داده می شود. دقت این الگوریتم بازشناسی بسیار مناسب تخمین زده می شود و قابلیت بازشناسی 098/01 % در کلماتی که از بیش از یک زیرکلمه تشکیل شده اند را داراست و کلماتی که صرفاً، تک زیرکلمه ای اند را با دقت 82/53 % بازشناسی می کند.