ناحیه بندی تصاویر اسناد پیچیده فارسی به بلوکهای متن، شکل و جدول

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و کامپیوتر
  • نویسنده مصطفی گلزاده حمزکانلو
  • استاد راهنما حسین خسروی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1393
چکیده

سامانه های نویسه خوان نوری، ocr، نقش بزرگی در تحقق دولت الکترونیک و کاهش حجم بایگانیهای کاغذی و دیجیتال دارند. این سامانه ها از سه بخش اصلی پیش پردازش، شناسایی متن و پس پردازش تشکیل شده اند. طبیعی است که هر خطایی در مرحله پیش پردازش، بازگشت ناپذیر است، مثلا اگر زاویه چرخش سند اشتباه شناسایی شود، سبب خواهد شد که خطوط متن کج بشوند و فرایند شناسایی متن، به درستی صورت نگیرد. یکی از قسمتهای مهم در پیش پردازش، تحلیل پیکربندی اسناد است؛ به این معنا که مشخص کنیم کدام بخشها از تصویر سند، متن است، کدام بخشها جدول اند و چه نواحی ای شکل هستند. هر خطایی در این بخش، سبب تولید خطاهای بیشتر در فرایند ocr خواهد شد. در این پایان نامه به تحلیل ساختار اسناد فارسی چند ستونه می پردازیم. در زمینه تحلیل اسناد، سه رویکرد، متداول است، رویکرد پایین به بالا که از پیکسلها شروع می کند و با ادغام و رشد پیکسلها، به نواحی بزرگتر می رسد. رویکرد بالا به پایین مثل روش برش xy که ابتدا تصویر را با برشهایی به چند ناحیه تقسیم می کند و سپس با تکنیکهایی هر ناحیه، را به نواحی کوچکتر تجزیه می کند. ترکیب این دو روش هم با عنوان رویکرد ترکیبی شناخته می شود. ما یک رویکرد تقریبا ترکیبی که بیشتر مبتنی بر روش پایین به بالاست ارائه می دهیم. در این رویکرد از تکنیکهای آستانه گذاری وفقی، برچسب زنی مولفه ها، عملیات ریخت شناسی و تبدیل هاف استفاده شده و با یک الگوریتم مکاشفه ای و معرفی قوانین خاصی برای ترکیب نواحی کوچک بدون ادغام نواحی غیریکسان، سند را به ناحیه های متنی، جدول و شکل تقسیم می کنیم. روش معرفی شده روی اسناد متعدد چند ستونه و اسنادی که زمینه ی گرافیکی یا هنری دارند، آزمایش شده و عملکرد خوبی در مقایسه با نرم افزارهای پیشرو در حوزه ocr مثل omnipage و finereader ارائه می دهد. که نتایج به لحاظ عددی بدین شرح است که الگوریتم ما متن های فارسی را با 72 ، شکل ها را با 75 و جدول ها را 92 درصد درست تشخیص می دهد. و 88 درصد اسناد فارسی را تقریبا درست ناحیه بندی می کند.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

حذف ناحیه کور در تصاویر سونار و دسته بندی اهداف با کمک ویژگی های ساختاری شکل

نقش دریاها و در کنار آن خطرات انسانی موجود در اعماق آن‌ها باعث شد که هشداردهنده‌ها و آشکارسازهای بستر دریا ازجمله سونار موردتوجه محققین قرارگرفته و به‌عنوان یکی از زمینه‌های مهم تحقیقاتی مطرح شوند. در این مقاله، روشی جدید برای پردازش تصاویر سونار و حذف ناحیه کور در تصاویر سونار اسکن جانبی معرفی شد. در روش پیشنهادی، با استفاده از الگوریتم تجانس فاز و ویژگی‌های ساختاری شکل، ناحیه کور حذف و تشخیص ...

متن کامل

متن، جدول یا نمودار؟

  سخن سردبیر   Editorial   مجله دانشگاه علوم پزشکی رفسنجان   دوره دوازدهم، بهمن 1392، 872-871       متن، جدول یا نمودار؟           Text, Table or Diagram?     محسن رضائیان [1]   M. Rezaeian     نویسندگان مقالات علمی در بخش یافته‌ها مبادرت به گزارش نتایج مطالعه علمی خود در قالب متن، جدول و یا نمودار می‌نمایند. اگرچه به نظر می‌رسد که نگارش بخش یافته‌ها ساده می‌باشد، اما همواره گزینش این نکته که چ...

متن کامل

متن، جدول یا نمودار؟

سخن سردبیر   editorial   مجله دانشگاه علوم پزشکی رفسنجان   دوره دوازدهم، بهمن 1392، 872-871    متن، جدول یا نمودار؟           text, table or diagram?     محسن رضائیان [1]   m. rezaeian نویسندگان مقالات علمی در بخش یافته ها مبادرت به گزارش نتایج مطالعه علمی خود در قالب متن، جدول و یا نمودار می نمایند. اگرچه به نظر می رسد که نگارش بخش یافته ها ساده می باشد، اما همواره گزینش این نکته که چه یافته ه...

متن کامل

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

طبقه بندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن

استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستم های جمع آوری اطلاعاتی در حوزه تکنولوژی اطلاعات می باشد. این مسأله وقتی حادتر می گردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی می باشند. در این مقاله، جهت تجزیه و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقه بندی مبتنی بر ناحیه بندی تصویر...

متن کامل

ناحیه بندی تصاویر تشدید مغناطیسی

ناحیه بندی و انجام تحلیل کمی روی تصاویر تشدید مغناطیسی (mr) برای کاربردهای تشخیصی و بهبود کیفیت و کنترل روند درمان، امری لازم و ضروری است . وجود نویز و آرتفکتهای متعدد در تصاویر mr، سبب شده است که ناحیه بندی بدون نظارت این تصاویر کاری دشوار باشد. در این رساله، در راستای توجه به نویز و آرتیفکهای میدان ضربی و جز حجم پنج روش جدید برای ناحیه بندی و تحلیل کمی روی تصاویر mr عرضه شده است . تعداد روشها...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023