ساخت پیکره تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
  • نویسنده سیده رویا محمدی
  • استاد راهنما نوشین ریاحی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1391
چکیده

کیفیت بسیاری از کاربردهای پردازش زبان های طبیعی مانند سیستم های ترجمه ی ماشینی به پیکره های موازی که برای آموزش آنها استفاده می شود، بسیار وابسته است. بنابراین یکی از نیازهایی که در این حوزه وجود دارد، تهیه ی پیکره های موازی با حجم داده ای بالا و محتوای متنوع می باشد. مشکلی که در استفاده از پیکره های موازی وجود دارد، حجم اندک اطلاعات موازی موجود بر روی منابع اطلاعاتی است. در سال های اخیر، تلاش های زیادی برای استخراج داده ی موازی از منابع غیرموازی یا پیکره های تطبیقی انجام شده است. مزیت این پیکره ها نسبت به پیکره های موازی، حجم بالای اطلاعاتی آنها می باشد. از طرفی، این داده ها را می توان به راحتی از طرق مختلف مانند صفحات وب بدست آورد. مثلاً یکی از منابع موجود برای استخراج پیکره های تطبیقی استفاده از شبکه های خبری می باشد. با وجود کاربردهای پیکره-های تطبیقی، کار زیادی در این زمینه در زبان فارسی انجام نشده است. در این پژوهش، نخست به ساخت پیکره ی تطبیقی بزرگ فارسی- انگلیسی می پردازیم. برای ایجاد این پیکره از اسناد خبری روزنامه های همشهری و بی بی سی استفاده کرده ایم و از اسناد بدست آمده، معیارهایی نظیر تعداد کلمات کلیدی مشترک، اسامی خاص یکسان، عناوین مشابه و فاصله ی تاریخ انتشار دو خبر را استخراج نمودیم. سپس معیارهای بدست آمده از مرحله ی قبل را براساس میزان اهمیتشان در ترازبندی متون، با وزن های مختلف با یکدیگر ترکیب کردیم. با توجه به نتایج بدست آمده، مشاهده می-شود که این پیکره از نظر کیفی و کمی از تنها پیکره ی تطبیقی تولید شده در زبان فارسی بهتر می باشد. در گام بعد، به استخراج جملات موازی از پیکره ی تطبیقی ساخته شده پرداختیم. بدین منظور، پس از استخراج متن های منطبق با یکدیگر، مجموعه ای از جملات را ایجاد کرده و با استفاده از معیارهای طول و تعداد هم پوشانی کلمات، جملاتی را که احتمال موازی بودنشان بسیار کم بود، تصفیه کردیم. پس از تصفیه، به استخراج ویژگی های لغوی، طولی و هم پوشانی لغات از جملات منتخب پرداختیم و در نهایت با استفاده از جملات آموزشی پیکره ی موازی موجود و ویژگی های استخراج شده، با به کارگیری یک طبقه-بند، جملات منتخب را در دو دسته ی موازی و غیرموازی دسته بندی کردیم.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند.  این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش­های زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مو...

متن کامل

ساخت پیکره ی دوزبانه موازی انگلیسی- فارسی و کاربرد آن در سامانه حافظه ترجمه (مبحثی در زبانشناسی پیکره ای)

در حال حاضر برونداد سامانه های ترجمه ماشینی نیاز به پس ویرایش دارد. در ترجمه ماشینی خودکار امکان دخالت کاربر حین کار وجود ندارد و مترجم پس از بروز خطا به رفع آن می پردازد. ابزارهای ترجمه می توانند با ایجاد محیطی تعاملی رفع خطاها را قبل از انتقال به برونداد ممکن سازند. مهمترینِ این ابزارها, سامانه های حافظه ترجمه هستند که از متون موازی همترازشده استفاده می کنند. فنون همترازسازی خودکار مورد استفاد...

15 صفحه اول

پیکره متنی تطبیقی فارسی-انگلیسی حوزه تخصصی فاوا

در زبان شناسی، پیکره انباره­ای از داده ­های متنی است. در این مقاله، تمرکز ما بر طراحی و ساخت خودکار پیکره دو زبانه فارسی-انگلیسی است. ما نرم افزاری برای ساخت پیکره طراحی کرده­ ایم که هزینه و زمان ساخت پیکره را کاهش می­ دهد؛ به­ علاوه نرم­افزار ارائه شده قابلیت مدیریت پیکره را نیز برای کاربران فراهم می­ کند. در این مقاله، روشی برای ترازبندی جمله های پیکره فارسی تخصصی حوزه فاوا  و جملات انگلیسی پ...

متن کامل

ارائه رهیافتی جدید برای تولید پیکره موازی انگلیسی-فارسی

در این پژوهش، برای اولین بار مدلی ترکیبی برای تراز بندی جملات، جهت ساخت پیکره های موازی انگلیسی-فارسی ارائه شده است. در حالت کلی چارچوب روش پیشنهادی، غیر وابسته به زبان های مبدأ و مقصد بوده و از آن می توان برای تولید پیکره های موازی، برای هر جفت زبان دیگر، نیز استفاده کرد. نتایج بدست آمده از پیاده سازی ها نشان می دهد که بکار بردن ویژگی های زبانی و غیر زبانی ، عملکرد سیستم را تا حد قابل قبولی به...

15 صفحه اول

تماس زبان های فارسی و ترکی آذربایجانی و تأثیر آن بر ساخت جملات مرکّب ترکی آذربایجانی

چکیده تحقیق حاضر قصد دارد تا تغییرات نحوی حاصل از تأثیر زبان فارسی بر جملات مرکب زبان ‌‌‌‌‌ترکی‌‌‌‌‌آذربایجانی را مطالعه نماید. داده‌‌ها از منابع معتبر مرتبط با زبان ترکی‌‌‌‌‌آذربایجانی و تعاملات زبانی گویشوران ترکی‌‌‌‌‌آذربایجانی‌‌ مناطق مرکزی استان اردبیل (30 نفر) گردآوری شد. تحلیل داده‌‌ها نشان داد که وام‌‌گیری جزغیرفعلی و حروف‌‌ربط زبان فارسی باعث شده است تا گویشوران ترکی‌‌‌‌‌آذربایج...

متن کامل

زبان وتغییرپذیری: بررسی جملات استفهامی انگلیسی و فارسی

پژوهشگرانی که در زمینه تعییرات زبانی فعالیت دارند معتقدند که زبانها در تمام سطوح تغییر را تجربه می کنند که این تغییر طرح مند به نظر می رسد. هدف پژوهش حاضر بررسی نحوه تغییری است که در جملات استفهامی انگلیسی و فارسی رخ می دهد. این تحقیق بالاخص به بررسی طرح مند و نظام دار بودن این تغییر می پردازد. بدین منظور برای جمع آوری اطلاعات یک نسخه اصلاح شده از کار-نقشه ادینبورگ (edinburgh map task) مورد است...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023