استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

نویسندگان

چکیده مقاله:

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند.  این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش­های زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مواجه بوده‌اند. در این راستا، در پژوهش حاضر سعی شده است به‌منظور تولید پیکره موازی با بهره‌گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم‌ترازانگلیسی/فارسی از متون مقایسه‌ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره‌گیری از اطلاعات نحوی جملات، یک مدل هم‌ترازی آموزش داده می‌شود. دقت مدل هم‌ترازی،در بهترین حالت، به شکل عملیاتی روی داده‌های آزمون (208 عدد جفت جمله) 77% و روی داده‌های آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم داده‌های طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتم‌های آموزش مورد استفاده قرار گرفت. به‌منظور افزایش دقت، از یک الگوریتم جست‌وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده‌های آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با به‌کارگیری مدل هم‌ترازی به‌دست‌آمده، به تولید ابزار هم‌ترازی دانشگاه اصفهان منجر شد، که می‌تواند به‌منظور خودکفایی در تولید پیکره‌های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

متن کامل

رویکردی کمینه‌گرا به نوع‌بندی نحوی جملات امری در فارسی

مقالة حاضر تلاش می­کند شیوة نوع‌بندی جملات امری را در گونة گفتاری فارسی در قالب برنامة کمینه‌گرا تبیین نماید. از این­رو، با الگوگیری از رویکرد هان و شواگر سازوکار حاکم بر جوازدهی جملات امری در فارسی بررسی می­گردد. چارچوب نظری این پژوهش، نظریة بازبینی مشخصه‌ها و فرضیة گروه متمم‌نمای انشقاقی ریتزی (1997) است. ابتدا استدلال می‌شود که در ساخت‌های امریِ بی‌نشان و نشان‌دار، حرکت آشکار فعل به هستة گروه...

متن کامل

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

در این مقاله ضمن تبیین فرایند مهندسی هستی شناسی‌ها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونه‌ای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دسته‌بندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...

متن کامل

تشخیص خودکار جنسیت نویسنده در متون فارسی

Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 10  شماره 2

صفحات  15- 36

تاریخ انتشار 2018-09-23

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023