نام پژوهشگر: باقر نوجوان آقدرق

طراحی سامانه ای برای شناسایی جملات مشابه برای استفاده در خلاصه سازی چند سنده
پایان نامه وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی غیر انتفاعی و غیر دولتی نبی اکرم - دانشکده فنی 1392
  باقر نوجوان آقدرق   محمد رضا فیضی درخشی

با افزایش روزافزون اطلاعات و حجم بالای مطالب موجود در فضای مجازی دیگر تکنیک های بازیابی اطلاعات جوابگوی نیاز کاربران نمی باشد. لزوم استفاده از روش هایی که بتواند خلاصه ای از اطلاعات مفید را در اختیار کاربران قرار دهد افزایش می یابد. خلاصه ساز چند سنده از جمله سیستم هایی می باشد که با ورود چند سند با موضوع یکسان به عنوان ورودی خلاصه ای از مهمترین اطلاعات مورد نظر را در اختیار کاربر قرار می دهد. افزونگی اطلاعات یکی از چالش های مهم در خلاصه سازی چند سنده می باشد. منظور از افزونگی اطلاعات تکرار مفاهیم یکسان در موضوع مشخص می باشد. با این توضیح که با افزونگی اطلاعات فرصت قرارگیری جملات مفید در خلاصه با توجه به حجم محدود آن از دست می رود. لذا لزوم دستیابی به سیستم شباهت یابی که بتواند از تکرار جملات مشابه در خلاصه جلوگیری کند افزایش می یابد. روش شباهت یابی پیشنهادی در این پایان نامه که برای زبان فارسی طراحی گردیده بر پایه معنا و نحو می باشد که بعد از پیش پردازش و ریشه یابی و استخراج کلمات صورت می گیرد. در روش شباهت یابی بر پایه معنا از یک بردار یکتا که از کلمات دو جمله تشکیل شده بهره می بریم. سپس با استفاده از فارس نت که شامل کلمات، مترادفات و روابط موجود بین مترادفات کلمات می باشد برای دستیابی به شباهت دو کلمه و کامل کردن درایه های بردار یکتا برای هر جمله استفاده می کنیم. همچنین در روش شباهت یابی بر پایه معنا از برچسب گذار ادات سخن برای ارزش گذاری به نقش های مختلف کلمات (اسم، فعل و صفت) بهره می بریم. در روش شباهت یابی بر پایه نحو از ترتیب کلمات بهره برده ایم که به جایگاه قرارگیری کلمات با توجه به شباهت معنایی بین آن ها در جمله توجه می نماید. در نهایت با ضریبی که به شباهت معنا و نحو با توجه به اهمیت آن ها اختصاص داده می شود شباهت دو جمله محاسبه می گردد. برای ارزیابی سیستم شباهت یاب از یک خلاصه ساز چند سنده بهره برده ایم. در این سیستم خلاصه ساز، از روش خوشه بندی average link و گزینشگری استفاده نموده ایم که شبیه ترین جمله در هر خوشه را انتخاب می کند. با بررسی آزمایش های به دست آمده و مقایسه روش پیشنهادی با روش شباهت یابی که در سیستم mead استفاده شده بود با بهبود 7 درصدی در کاهش افزونگی مواجه شدیم.