نام پژوهشگر: حامد ابوترابی گودرزی

بررسی و امکان سنجی بهبود سیستم های جستجوی اطلاعات فارسی-انگلیسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی 1390
  حامد ابوترابی گودرزی   حسن نادری

همراه با افزایش تصاعدی حجم اطلاعات در چند دهه ی اخیر، بحث یافتن اطلاعات مورد نیاز کاربران به یکی از مهم ترین چالش ها در سیستم های اطلاعاتی تبدیل شده است. در این راستا، سیستم های جستجوی اطلاعات به عنوان ابزاری برای رفع نیاز اطلاعاتی کاربران به کار گرفته شده اند. از مهم ترین مشکلات در سیستم های جستجوی اطلاعات، عدم توجه به زبان اسناد است. این موضوع جستجوی کاربران را عملاً به زبانی محدود می کند که کاربر به آن زبان نیاز اطلاعاتی خود را مطرح می کند. برای حل این مشکل، بحث سیستم های جستجوی اطلاعات بین زبانی مطرح شده است. در یک سیستم جستجوی اطلاعات بین زبانی، عملیات جستجوی اسناد به زبان پرس وجوی کاربر محدود نیست. از عمده ترین مشکلات در چنین سیستمی، انجام یک ترجمه ی صحیح و بدون ابهام، از زبان کاربر به زبان اسناد است. در این تحقیق اثر ترکیب ابزار های پردازش زبان طبیعی در بهبود عملیات رفع ابهام ترجمه در سیستم جستجوی اطلاعات فارسی- انگلیسی، بررسی شده است. روش پیشنهاد شده به این شکل است که ابتدا یک گراف ترجمه به کمک کاندیدا های ترجمه ی پرس وجوی کاربر ایجاد می شود. سپس از ترکیب ابزار های پردازش زبان طبیعی، یک شبکه ی معنایی ایجاد می شود تا کاندیداهای ترجمه ی موجود در گره های گراف ترجمه، به گره های این شبکه ی معنایی نگاشت شود. وزن هر یال در گراف ترجمه به کمک تعیین کوتاه ترین مسیر بین گره های معادل آن یال در شبکه ی معنایی، تعیین می شود. برای یافتن کوتاه ترین مسیر بین گره ها در شبکه ی معنایی، از روش پیمایش سطحی دوطرفه استفاده شده است تا زمان اجرای الگوریتم جستجو کاهش یابد. در اولین آزمایش انجام شده، پایگاه داده ی لغوی وُردنت به عنوان آنتولوژی درنظر گرفته شد تا اثر پیمایش روابط موجود در آنتولوژی، بر رفع ابهام ترجمه ارزیابی شود. سپس شبکه ی معنایی یاد شده به کمک ترکیب وُردنت و فریم نت که پایگاه داده ی دیگری بر اساس معنا شناسی قاب است، ایجاد شد تا مسیر یافته شده به کمک آن بهبود یابد. نتایج بدست آمده نشان می دهد انتخاب کم وزن ترین زیر گراف کامل در گراف ترجمه می تواند در بهبود عملیات رفع ابهام ترجمه موثّر باشد.