بازشناسی متون فارسی با استفاده از روشهای گرامری و معنایی

پایان نامه
چکیده

یکی از رایجترین اشکال انتقال اطلاعات، کاغذ می باشد. حجم زیادی از اطلاعات از طریق کاغذ منتقل می شوند. مستندات کاغذی از تنوع زیادی برخوردار هستند به عنوان مثال اطلاعات روی کاغذ می تواند شامل متون چاپی یا دست نویس، جداول، منحنی ها، تصاویر و ... باشد. ترکیب این اطلاعات بر روی اسناد کاغذی و همچنین استفاده از انواع مختلف قلم ها و ویژگی های خاص باعث دشواریهایی در بازیافت اطلاعات می گردد. علاوه بر این مسائلی از قبیل کیفیت چاپ، کاغذ، جوهر و همچنین کیفیت اسکن یک سند و ... عواملی هستند که کار بازشناسی متن را مشکل تر و پیچیده تر می سازند. ویژگیهای خط فارسی از دیگر موارد مشکل ساز در بازشناسی متون فارسی هستند. تا کنون کارهای زیادی برای متون زبان لاتین، چینی و ژاپنی انجام شده است، اما برای بازشناسایی متون فارسی و عربی با این که بسیاری از جمعیت جهان برای نوشتن از این زبانها استفاده می کنند، کارهای انجام شده نسبتا کم و پراکنده بوده است. از جمله علل این امر پیچیدگی های نوشتاری این زباها، فقدان پایگاه داده و لغت نامه های استاندارد و جامع برای متون فارسی و عربی ذکر شده است. در این پایان نامه الگوریتمی به منظور بازشناسی متون فارسی از ترکیب دو شاخه علمی پردازش تصویر و پردازش زبانهای طبیعی ارائه شده است. الگوریتم پیشنهادی شامل مراحل استخراج شبه کلمات به عنوان یکی از مهمترین اجزای الگوریتم شناسایی متن، ساخت کلمات از ترکیب شبه کلمات استخراج شده و سپس ترکیب کلمات به منظور ساخت جملات بالقوه معنی دار و در نهایت استفاده از دو مدل زبانی بایگرام و ترایگرام و چند قاعده گرامری به منظور تشخیص جمله صحیح بر اساس انطباق با گرامر رایج زبان فارسی می باشد. در الگوریتم ارائه شده، استفاده از قواعد گرامری مانند حذف ترکیبهای دستوری اشتباه منجر به بهبود نتایج حاصل از بازشناسی شد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi tex...

متن کامل

بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

بازشناسی متون، در سال های اخیر بسیار مورد توجه قرار گرفته است. ارائه الگوریتم های بازشناسی برگرفته از ساختار گرامری و معنایی این زبان می تواند روش موثری در پردازش های دیگر مربوط به خط و زبان فارسی باشد. در این مقاله با استفاده از شاخه علمی پردازش زبان-های طبیعی، یک الگوریتم سه مرحله ای به منظور بازشناسی متون فارسی بر مبنای بازشناسی جملات فارسی ارائه می شود. این روش شامل مراحل ترکیب زیرکلمات به ...

متن کامل

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

روشهای تعلیم و تربیت در متون ادب فارسی

فلسفة تعلیم و تربیت را می­توان رشته­ای مستقل فرض نمود که در آن اساس تعلیم و تربیت،رابطة تعلیم ‌و‌ تربیت با دیگر رشته‌های معرفت انسانی،روش­های تربیتی و نحوة برخورد با مسائل و مشکلات تربیتی است. در باب تعلیم و تربیت نمی توان از مبنایی واحد سخن گفت، بلکه تعلیم‌ و ‌تربیت را می‌توان به مبانی متعددی چون روان شناسی، جامعه‌شناسی، دین‌شناسی،انسان شناسی و امثال آن تقسیم کرد.بررسی انواع روش‌های تربیتی و ت...

متن کامل

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

روشهای تعلیم و تربیت در متون ادب فارسی

فلسفة تعلیم و تربیت را می­توان رشته­ای مستقل فرض نمود که در آن اساس تعلیم و تربیت،رابطة تعلیم ‌و‌ تربیت با دیگر رشته‌های معرفت انسانی،روش­های تربیتی و نحوة برخورد با مسائل و مشکلات تربیتی است. در باب تعلیم و تربیت نمی توان از مبنایی واحد سخن گفت، بلکه تعلیم‌ و ‌تربیت را می‌توان به مبانی متعددی چون روان شناسی، جامعه‌شناسی، دین‌شناسی،انسان شناسی و امثال آن تقسیم کرد.بررسی انواع روش‌های تربیتی و ت...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه سمنان - دانشکده مهندسی برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023