نام پژوهشگر: محسن خزایی

ارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی 1390
  محسن خزایی   امین اله مهابادی

سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا چه اندازه قادر به انطباق، بازیابی و رتبه بندی اسنادی است که به نیاز اطلاعاتی کاربر مرتبط می باشد. هرچه تعداد اسناد مرتبط بازیابی شده توسط سیستم بیشتر و تعداد اسناد نامرتبط کمتر باشد، رضایت کاربر بالاتر بوده و میزان کیفیت سیستم بیشتر خواهد بود. در این پژوهش برای افزایش میزان دقت و اثربخشی سیستم بازیابی اطلاعات از روش های خوشه بندی اسناد استفاده شده، به ترتیبی که سعی می گردد قبل از این که کاربر نیاز اطلاعاتی خود را در قالب یک پرس و جو بیان نماید، اسناد داخل مجموعه به چندین گروه تقسیم شود بطوری که اسناد داخل یک خوشه نسبت به هم دارای بیشترین مشابهت بوده و در عین حال بیشترین فاصله را نسبت به اسناد سایر خوشه ها دارا باشند. بدین ترتیب، پرس و جوی کاربر ابتدا به نزدیک ترین خوشه مرتبط شده، سپس تنها اسناد داخل آن خوشه با توجه به میزان مشابهتشان با پرس و جو، رتبه بندی و در نتایج سیستم بازیابی ظاهر می گردند. بدین ترتیب اسنادی که از لحاظ ظاهری و لغوی شباهت چندانی با پرس و جو نداشته اما از نظر محتوی، نیاز اطلاعاتی کاربر را برآورده می سازند نیز در نتایج جستجو ظاهر می گردند. برای این منظور روش خوشه بندی جدیدی با استفاده از الگوریتم یافتن تطابق ماکزیمم در گراف دوبخشی معرفی شده و نشان می دهیم خوشه بندی اسناد و اعمال آن در سیستم بازیابی اطلاعات به بهبود نتایج در مقایسه با سیستم های سنتی می انجامد. بمنظور ارزیابی روش خوشه بندی و مقایسه آن با روش های موجود، از پیکره های استاندارد 20newsgroups، webkb و reuters 21578 و یک پیکره ساختگی استفاده شده است. همچنین جهت مقایسه سیستم بازیابی اطلاعات مبتنی بر خوشه بندی با روش سنتی، از پیکره استاندارد cranfield استفاده شده است. نتایج بدست آمده نشان می دهد روش خوشه بندی پیشنهادی دارای خروجی مطلوبی بوده و استفاده از آن در سیستم بازیابی اطلاعات، منجر به افزایش میزان دقت سیستم، در مقایسه با حالت سنتی خواهد شد.