نام پژوهشگر: یعقوب پوراسد

بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی 1390
  یعقوب پوراسد   هوشنگ حسیبی

در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده برای تشخیص قلم و نیز سیستم بازیابی کلمات، چندین پایگاه تصویری با استفاده از کامپیوتر ایجاد شدند. پایگاه تصویری اصلی بکار رفته برای ارزیابی، شامل 448 تصویر تمیز و بدون نویز بود که سیستم ارائه شده با دقت بیش از %98 قلم و اندازه قلم آنها را تشخیص داد. همچنین سیستم کلی بازیابی کلمات، با دقت %86 در نرخ بازیابی %82 قادر به بازیابی کلمات از مستندات تصویری بود. این نرخ دقت و بازیابی با ارزیابی سیستم بر روی 200 کلمه فارسی بدست آمده است. همچنین یک پایگاه مستندات تصویری کوچک از مستندات تصویری اسکن شده (شامل 13 مستند تصویری نوشته شده در نرم افزار ms word که به صورت کاملا تمیز و بدون کجی اسکن شده اند) هم برای بررسی امکان پیاده سازی سیستم بر روی تصاویر اسکن شده واقعی ایجاد شد که مشاهده شد که هر دو روش ارائه شده قابل پیاده سازی بر روی تصاویر اسکن شده واقعی هم هستند. علاوه بر پایگاه تصاویر گفته شده، عملکرد سیستم بر روی یک پایگاه تصویری شامل تعدادی تصویر اسکن شده در شرایط غیر ایده آل دارای نویز و کجی هم مورد آزمایش قرار گرفت که نتایج حاصل نشان دهنده ضعف سیستم تشخیص قلم در تشخیص قلم مستندات نویزی و کج می باشد.