بازشناسی برون خط کلمات دست نوشته فارسی در یک مجموعه ای از لغات

پایان نامه
چکیده

در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای هر ستون تصویر است. برای کاهش ابعاد ویژگی های استخراج شده و محدود کردن آشفتگی این سیگنال ها از تبدیل موجک یک بعدی استفاده شده است. برای اندازه گیری تشابه بردارهای ویژگی های دو کلمه از معیار فاصله dtw استفاده می کنیم. میانگین هر خوشه در فضای ویژگی ها به عنوان نماینده آن خوشه و مدخل مشترک اعضای آن خوشه در فرهنگ لغت تصویری، در نظر گرفته می شود. تعداد کلمات موجود در فرهنگ لغت مورد مطالعه 16000 کلمه از 503 شهر ایران می باشدکه "ایران شهر" نام دارد. در این مرحله کلمات دست نوشته در 62 خوشه قرار می گیرند. در مرحله شناسایی کلمه ورودی، با انتخاب 5 خوشه نزدیک به کلمه دست نوشته مورد آزمون با دقت 94% حدود 77% از کلمات مورد بررسی کاهش خواهد یافت. در مرحله دوم بازشناسی، یکی از کلمات کاندید بدست آمده از مرحله اول می بایست بعنوان کلمه مورد آزمون تشخیص داده شود. در این مرحله از ویژگی هیستوگرام گرادیان روشنایی محلی استفاده می کنیم. برای این منظور گرادیان تصویر کلمه ورودی بلوک بندی می شود. در این پایان نامه دو روش بلوک بندی تطبیقی برای بهبود عملکرد بازشناسی پیشنهاد می گردد. در روش اول اندازه بلوک ها بر اساس توزیع پیکسل های سیاه (قلم) تنظیم می شوند و در روش دوم اجزاء اصلی کلمات دست نوشته به طور جداگانه بلوک بندی و سپس با هم ترکیب می شوند. بردارهای ویژگی مبتنی بر گرادیان کلمه ورودی با بردارهای ویژگی حاصل از کلمات کاندید در فرهنگ لغت در یک طبقه بند مقایسه می شوند. برای این منظور از کلاسه بندهای k نزدیکترین همسایه و svm چند کلاسه استفاده می شود. نتایج بازشناسی کلمات دست نوشته پایگاه داده "ایران شهر" نشان می دهد که مرحله کاهش کاندید ها در فرهنگ لغت باعث افزایش نسبی دقت و سرعت می شود. این به دلیل حذف کلمات نامتشابه در بازشناسی کلمه دست نوشته مورد بررسی است. همچنین روش پیشنهادی بلوک بندی تطبیقی در استخراج ویژگی هیستوگرام گرادیان محلی باعث بهبود 13 درصدی دقت سیستم بازشناسی می شود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

شناسایی برون خط کلمات دستنویس فارسی در یک مجموعه محدود

هدف این رساله ارائه روشهای بدون قطعه بندی برای شناسایی کلمات دستنویس فارسی در یک مجموعه محدود است . اصولا" روش های بدون قطعه بندی، براساس ویژگیهایی از تمام کلمه یا زیرکلمه عمل می کنند. در این رساله یک نمایش جدید دوبعدی برای کلمات دستنویس فارسی پیشنهاد شده است . همچنین روشی برای تعمیم الگوریتم dtw به دوبعد ارائه شده و برای مقایسه کلمات بکار رفته است . برای آزمون روشهای مختلف ، از یک مجموعه محدود...

15 صفحه اول

تشخیص برون خط کلمات دست نوشته فارسی به کمک بلوک بندی تطبیقی

تشخیص خودکار متن یکی از زیر مجموعه های پردازش تصویر است که به طور گسترده در کتابخانه دیجیتال، خواندن آدرس پستی نامه ها، خواندن چک های بانکی، خواندن فرم ها و پرسشنامه ها استفاده می شود. بازشناسی متون دست نوشته فارسی در دو سطح کلی برون خط و بر خط انجام می پذیرد که سیستم های برون خط خود به دو دسته تقسیم می شود: سیستم های مبتنی بر جداسازی و سیستم های کلی نگر. در سیستم های مبتنی بر جداسازی سعی می ش...

بازشناسی بر خط و بدون محدودیت دست نوشته فارسی

بازشناسی برخط نوشتار یکی از دشوارترین زمینه های شناسایی الگو و هوش مصنوعی بوده و همواره مورد توجه خاص محققان قرار گرفته است. پیچیدگی این زمینه, هنگام برخورد با زبان هایی مثل فارسی و عربی که حروف آن ها باتوجه به موقعیت شان در کلمه, شکل های متفاوتی به خود می گیرند, دوچندان می شود. تحلیل دست نوشته ی فارسی یا عربی در مقایسه با زبان های لاتین، به علت حضور اجزای کوچکی ("نقطه", "دونقطه" و ...) بالا یا...

15 صفحه اول

بازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت

بازشناسی کلمات دست‌نوشته و تبدیل آن به متن تایپی معادل می‌ تواند در تفسیر دست‌نوشته و جستجو در اسناد بسیار حائز اهمیت باشد. در این مقاله سیستمی به منظور تشخیص برون‌ خط دست‌ نوشته فارسی در یک فرهنگ لغت محدود معرفی شده است. به منظور استخراج ویژگی، بعد از بلوک ‌بندی تصویر ورودی و استخراج مرکز هر بلوک توسط مرکز ثقل، میانگین مرکز اجزای متصل از الگوریتم سیفت متراکم استفاده شده است. از روش آنالیز تفکی...

متن کامل

خوشه بندی سبک نگارش دست نوشته برون خط فارسی

هدف این پایان نامه، یافتن و استخراج ویژگی هایی است که بر مبنای آن بتوان دست خط فارسی را خوشه بندی کرد. در این کار، در ابتدا بر روی ویژگی های مبتنی بر بافت، تمرکز شده است. این ویژگی ها شامل دو دسته ویژگی آماری ماتریس باهم آیی و ویژگی مبتنی بر تبدیل گابور است. برای استخراج این ویژگی ها، یک بافت مناسب در ابعاد 1024×1024 مستقل از محتوای سند، از تصویر دستنوشته ایجاد می شود. از ویژگی های دیگری که در ...

15 صفحه اول

مدل‌سازی بازشناسی واجی کلمات فارسی

Abstract of spoken word recognition is proposed. This model is particularly concerned with extraction of cues from the signal leading to a specification of a word in terms of bundles of distinctive features, which are assumed to be the building blocks of words. In the model proposed, auditory input is chunked into a set of successive time slices. It is assumed that the derivation of the underly...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023