استخراج حقایق از متون فارسی در قالب rdf

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
نویسنده محسن کاهانی
استاد راهنما
سال انتشار 1393

چکیده

با توجه به حجم عظیم دانش و اطلاعات بشر و رشد روزافزون مستندات در زمینه های مختلف، پردازش زبان های طبیعی و تبدیل متون به دانش قابل فهم برای ماشین، مورد توجه قرار گرفته است. با استفاده از سیستم های استخراج اطلاعات می توان بطور خودکار پایگاه دانشی ساخت یافته از متون ایجاد کرد. در واقع هدف یک سیستم استخراج اطلاعات، استخراج حقایق از متون غیرساخت یافته و نمایش آن ها در قالب های ساخت یافته مانند سه گانه های rdf می باشد. اگر حقایق در قالب معنایی rdf نگاشت شوند، می توان اطلاعات مورد نیاز را با ساخت و ارسال پرس وجوهای sparql روی پایگاه دانش بدست آورد. در این پایان نامه، روشی برای استخراج آزاد حقایق از متون زبان فارسی پیشنهاد شده است که در آن استخراج حقایق در سطح جمله و بر اساس تشخیص افعال و روابط وابستگی بین اجزای جمله انجام می شود. راه کار پیشنهادی، حقایق اصلی را بر اساس فعل و حقایق فرعی را بر اساس روابط بین گروه های اسمی جمله استخراج و برای تبدیل به قالب rdf آماده سازی می کند. برای نگاشت حقایق در قالب معنایی rdf، uri قسمت های نهاد، مسند و گزاره یک حقیقت با استفاده از شبکه واژگان و ویکی پدیا شناسایی می شود. در نتیجه در راه کار پیشنهادی شبکه واژگان فردوس نت بصورت خودکار بر اساس شبکه واژگان انگلیسی ایجاد می شود. نتایج حاصل از ارزیابی نشان می دهد که روش پیشنهادی در استخراج حقایق موفق بوده و باعث بهبود دقت و فراخوانی نسبت به سیستم های موجود می شود. علاوه بر این سیستم پیشنهادی حقایق را در قالب معنایی rdf استخراج می کند.

منابع مشابه

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

متن کامل

استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند. این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مو...

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

در این مقاله ضمن تبیین فرایند مهندسی هستی شناسی‌ها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونه‌ای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دسته‌بندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...

متن کامل

روش تصحیح متون فارسی

متن کامل

روش تصحیح متون فارسی

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

کلمات کلیدی

استخراج اطلاعات چارچوب توصیف منابع پردازش زبان طبیعی وب معنایی اسپارکل زبان پرس و جو شبکه معنایی گردآوری اطلاعات زبان فارسی هستی شناسی

میزبانی شده توسط پلتفرم ابری doprax.com