بازنمایی و توصیف شکل زیر-کلمات چاپی فارسی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده مهندسی برق و کامپیوتر
  • نویسنده هما داودی
  • استاد راهنما احسان اله کبیر
  • سال انتشار 1393
چکیده

بر خلاف بیشتر تحقیقات انجام شده در زمینه توصیف شکل کلی کلمات، که به استخراج ویژگی‏های یکسان از تمام کلمات می‏پردازند، در این رساله، هر زیر-کلمه بر اساس خصوصیات شکلی آن توصیف می‏شود. در روش پیشنهادی، ابتدا بخش‏هایی از شکل زیر-کلمه به عنوان مناطق مهم انتخاب می‏شوند و سپس، از این مناطق برای ارائه توصیف مناسب آن زیر-کلمه استفاده می‏شود. مناطق مهم، بخش‏هایی از شکل زیر-کلمه هستند که بین نمونه‏های آن بیشترین شباهت را دارند و در عین حال بیشترین تفاوت را با نمونه‏های سایر زیر-کلمات ایجاد می‏کنند. در این تحقیق، دو روش را برای تعیین این مناطق پیشنهاد می‏کنیم. در روش اول، حروف تشکیل دهنده زیر-کلمات را با استفاده از معیار آنتروپی بررسی کرده و حروف اول هر زیر-کلمه را به عنوان حرف شاخص آن انتخاب می‏کنیم. از این حروف، در ارائه توصیف مناسب زیر-کلمات استفاده می‏شود. در روش دوم، به جای بررسی حروف، مناطق مختلف محلی شکل را، با استفاده از معیارهای سنجش بازیابی، بررسی کرده و مناطق شاخص زیر-کلمات را تعیین می‏کنیم. با استفاده از این مناطق، روش دیگری را، مبتنی بر گراف، برای توصیف شکل زیر-کلمات ارائه می‏کنیم. روش‏های پیشنهادی برای توصیف شکل زیر-کلمات را، در سه سامانه مختلف کاهش اندازه دیکشنری به کار می‏بریم. در هر سه سامانه، روش‏های توصیف سراسری و محلی شکل، به نحوی موثر با هم ترکیب شده‏اند. سامانه‏های پیشنهادی، روی مجموعه‏های مختلفی از تصاویر زیر-کلمات اعمال شده و نتایج بررسی شدند. در اعمال روش‏های پیشنهادی روی یک دیکشنری 6895 عضوی از تصاویر بدنه زیر-کلمات چاپی فارسی، بیشترین میزان کاهش اندازه دیکشنری معادل 83/97% در دقت حدود 100% به دست آمد.

منابع مشابه

بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات

در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده ...

15 صفحه اول

مدل‌سازی بازشناسی واجی کلمات فارسی

Abstract of spoken word recognition is proposed. This model is particularly concerned with extraction of cues from the signal leading to a specification of a word in terms of bundles of distinctive features, which are assumed to be the building blocks of words. In the model proposed, auditory input is chunked into a set of successive time slices. It is assumed that the derivation of the underly...

متن کامل

ساخت موضوعی کلمات مشتق در زبان فارسی

ساخت موضوعـی بـه فهرست موضوع‌هـای یک محمـول اطلاق می‌شود. مثلاً، فعل «خورد» دو موضوع و فعل «داد» سه موضوع در ساخت موضوعی خود دارد. معمولاً ساخت موضوعی افعال پس از افزوده‌شدن یک وند اشتقاقی به آنها تغییر می‌کند، به‌گونه‌ای که ساخت موضوعی مشتق حاصله با ساخت موضوعی کلمۀ پایه متفاوت است. در مقالة حاضر، ساخت موضوعی مشتقات فعلی زبان فارسی و تأثیر وند افزایی بر ساخت موضوعی کلمة پایه را مطالعه می‌کنیم. چ...

متن کامل

کلمات مرکبِ «انعکاسی» در فارسی: انگارۀ دستوری‌شدگی

انعکاسی‌ها در مطالعات زبان‌شناسی به آن دسته از واحدهای زبانی اطلاق می‌شوند که به‌دلیلِ رمزگذاری هم‌مرجع‌بودگی میان فاعل و موضوع دیگر فعل (مفعول مستقیم یا غیرمستقیم) یا تأکید برگروه اسمی در جمله به‌کار گرفته می‌شوند. مختصر حاضر بر آن است تا به بررسی آن دسته از کلمات مرکب در زبان فارسی بپردازد که با عناصر انعکاسیِ: «خویش» و «خویشتن» و عنصر انعکاسی و انعکاسیِ تأکیدیِ «خود» پدید می‌آیند. این بررسی با ه...

متن کامل

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده مهندسی برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023