نام پژوهشگر: حمید دلشادی
حمید دلشادی منوچهر کلارستاقی
ترجمه ماشینی یکی از اولین اهداف هوش مصنوعی است که به دلیل نیاز روز افزون به فهم و استفاده از منابع زبان¬های دیگر اهمیت بسیاری دارد. روش¬های مختلفی مانند روش¬های مبتنی بر دستور زبان، مبتنی بر مثال و روش¬های آماری برای ترجمه ماشینی استفاده شده است. در اینجا از روش آماری عبارت بنیان که در سال¬های اخیر بسیار مورد توجه بوده است استفاده شده است. هدف نهایی در ترجمه ماشینی رسیدن به یک سیستم ترجمه ماشینی خودکار با کیفیت است. هم¬اکنون سیستم¬های ترجمه¬ای که خودکار عمل کنند وجود دارند، اما ترجمه سیستم تنها در مواردی خاص کیفیت مناسب را دارد. یکی از این موارد زمانی است که داده¬های آموزشی محدود به زمینه¬ای ¬باشند که ترجمه ماشینی در آن استفاده می شود. به منطبق کردن یک سیستم ترجمه ماشینی با یک زمینه خاص، تطبیق زمینه می¬گویند. داده¬های آموزشی برای زمینه¬های خاص بسیار کمیاب هستند و کیفیت ترجمه ماشینی با اندازه داده¬های آموزشی نیز ارتباط مستقیمی دارد. مشکل کمبود داده در زبان فارسی نیز به شدت وجود دارد. در این پژوهش تلاش می شود این مشکل حل شود. روش پیشنهادی این پژوهش بر پایه¬ی کاهش خطاهای سیستم شکل گرفته است. در این پژوهش خطای عدم مشاهده و خطای امتیاز هدف قرار گرفته شده است. برای حل مشکل عدم مشاهده، جدول ترجمه¬ای که با استفاده از داده¬های هم¬زمینه به دست آمده است را با استفاده از جدول ترجمه¬ای که از داده¬های عمومی به دست آمده غنی می کنیم. این رویکرد پر کردن نام دارد. برای مقابله با خطای امتیاز نیز ابتدا جمله¬هایی از داده¬های عمومی را که به داده¬های هم-زمینه شبیه هستند را با استفاده از مدل زبانی انتخاب می کنیم. سپس با افزودن این جمله¬ها به پیکره هم¬زمینه، آن را غنی¬تر می کنیم. در این انتخاب تلاش می شود که با حذف اسامی خاص بی اهمیت در زمینه، دقت انتخاب جمله¬ها افزایش یابد.