خلاصه سازی خودکار متون فارسی مبتنی بر هستی شناسی

پایان نامه
چکیده

با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های سطحی و معیارهای آماری به استخراج مهمترین بخش های متن منبع پرداخته و خلاصه نهایی را شکل می دهند. هدف این پژوهش استفاده از یک روش مبتنی بر پایگاه دانش در فرآیند خلاصه سازی است. در این راستا از پایگاه دانش هستی شناسی فارس نت به منظور دستیابی به مفاهیم موجود در متون و تولید خلاصه آنها استفاده خواهد شد. هستی شناسی یکی از مباحث مربوط به علم فلسفه است که یک ساختار سلسله مراتبی از همه موجودیت های عالم هستی به همراه روابط حاکم بر آنها فراهم می کند. در این پژوهش ابتدا با نگاشت متن مورد خلاصه سازی با پایگاه دانش هستی شناسی، گرافی تحت عنوان گراف موضوعی شکل می گیرد که حامل شمای مفهومی متن منبع است. سپس با استفاده از معیارهای مختلف تعیین اهمیت گرافی، اهمیت نسبی هر یک از گره های گراف ارزیابی می شود. سرانجام از این مقادیر به منظور تعیین اهمیت جملات مختلف موجود در متن منبع و ساخت خلاصه نهایی استفاده خواهد شد. نتایج حاصل از ارزیابی خلاصه های تولید شده، حاکی از برتری روش پیشنهاد شده در این پژوهش نسبت به سیستم های خلاصه ساز موجود است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of tex...

متن کامل

تکنیک‌های خلاصه‌سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم‌های فرااکتشافی

هدف:ارائه الگوی خلاصه‌سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه‌سازی به مسئله بهینه‌سازی توسط الگوریتم‌های فرااکتشافی سازگار. روش‌شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه‌های خبری از خبرگزاری‌های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده‌ای ...

متن کامل

سیستم خودکار خلاصه ساز متون فارسی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

در این مقاله ضمن تبیین فرایند مهندسی هستی شناسی‌ها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونه‌ای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دسته‌بندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...

متن کامل

خلاصه سازی ماشینی آماری متون فارسی

در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.

تشخیص خودکار جنسیت نویسنده در متون فارسی

Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023