تشخیص صحیح کلمات هم آوا در متون فارسی با استفاده از تکنیک متن کاوی

پایان نامه
چکیده

نوشتار کلمات فارسی به دلیل وجود حروف هم آوا پیچیده می باشد. افراد برای یادگیری املای کلمات باید با تمرین و ممارست آن را بیاموزند. نرم افزارهایی تحت عنوان غلط یاب جهت بررسی املای کلمات فارسی ارائه شده اند که با مقایسه نوشتار کلمات با دانش موجود در نرم افزار، صحت آنها را تشخیص می دهند. در این میان صحت برخی کلمات بر اساس متن مشخص می-شود (ممکن است کلمات از نظر املایی صحیح، ولی بر اساس متن جمله اشتباه باشند.). این کلمات توسط غلط یاب ها شناسایی نمی شوند و نیاز است که به طور مستقل مورد بررسی قرار گیرند. کلمات هم آوا شامل این دسته از کلمات می باشند. در این طرح هدف آن است که با بررسی نوشتار کلمات هم آوا در متون فارسی و محاسبه فرکانس تکرار ریشه کلماتی که در فواصل مختلف نسبت به کلمه ی هم آوا قرار گرفته اند، کلمات را امتیازدهی و برای تشخیص نوشتار کلمه ی هم آوا استفاده کنیم. در این طرح جهت بالابردن دقت الگوریتم، یک ریشه یاب مبتنی بر قواعد ساختواژی زبان فارسی ارائه شد که برای برخی کلمات تا 14.7 درصد بازده الگوریتم را نسبت ریشه یاب های موجود افزایش داد. تاثیر کلمات در همسایگی کلمه هم آوا برای برخی موارد تا 9 درصد محاسبه شد. تاثیر فاصله کلمات تا کلمه هم آوا در تشخیص نوشتار کلمه هم آوا 2 درصد محاسبه شد. نهایتا دقت روش ارائه شده به 93.1 درصد رسید.

منابع مشابه

استفاده از تکنیک های داده کاوی جهت تشخیص دیابت با استفاده از چربی خون

مقدمه: بیماری دیابت یکی از شایع ترین، خطرناک ترین و پرهزینه ترین بیماری های حال حاضر دنیا است که با نرخ هشدار دهنده ای در حال افزایش است. استفاده از روش‌ های داده‌ کاوی می تواند به تشخیص زودهنگام دیابت کمک کند که باعث جلوگیری از پیشرفت این بیماری و خیلی از عوارض آن مانند بیماری قلب و عروق، مشکلات بینایی و بیماری های کلیوی می شود. مواد و روش ها: در این تحقیق از نرم افزار داده کاوی رپیدماینر برای...

متن کامل

استخراج روابط معنایی بین کلمات فارسی با استفاده از داده کاوی متن ها

استخراج اطلاعات یکی از زمینه های رایج پردازش زبان های طبیعی است که فعالیت خود را از همان ابتدای پیدایش پردازش هایی روی زبان های طبیعی آغاز کرده است. هدف از استخراج اطلاعات بدست آوردن اطلاعات مفیدی از منابع وسیع و غیر ساخت یافته موجود در فضای مجازی است. استخراج روابط معنایی یکی از شاخه های رایج در زمینه استخراج اطلاعات است. روابط معنایی زیادی را می توان تعریف کرد که از جمله مهمترین آنها رابطه ها...

15 صفحه اول

معرفی سیستم آموزش تشخیص و تصحیح ابهام کلمات برای افزایش کارایی مترجم متن فارسی به زبان اشاره فارسی با استفاده از آنتولوژی.

مهم‌ترین عامل ارتباط بین انسان‌ها، توانمندی در برقراری ارتباط از روش‌های مختلف مانند گفتار، نوشتار و زبان‌اشاره می‌باشد. ناتوانی افراد کم‌شنوا و ناشنوا در برقراری ارتباط صمیمانه، هم‌چنین نبود آموزش مرسوم با توجه به نیازهای جامعه، باعث کنارگذاری این افراد شده است. این پژوهش به دنبال معرفی سیستمی می‌باشد که متن فارسی را دریافت کرده و بعد از انجام پردازش‌ زبان طبیعی لازم، آن را به زبان اشاره فارسی...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

تشخیص عادت های نوشتاری و استفاده از آن در سنتز کلمات در دستخط های فارسی

تولید کلمات در زبان فارسی و ساخت دستخط به کمک اتصال حروف دست نوشته، یکی از موضوعات جالب و کاربردی می باشد، به طوری که راهبردهای جدیدی را در زمینه تشخیص حروف دست نویس فارسی و همچنین تصدیق صحت دستخط افراد مختلف، مشخص می کند. در این مقاله به ساخت دستخط افراد از دستخط های قبلی آنها بر اساس اتصال حروف، پرداخته شده است. برای این منظور در ابتدا به کمک استخراج نقاط کنترلی حروف فارسی، برخی از عادت های ن...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023