نام پژوهشگر: حسین مزدورانی شیرازی

کشف کلید واژه های یک مستند بر مبنای آنالیز معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده مهندسی کامپیوتر 1392
  مصطفی کریمی منش   حسین مزدورانی شیرازی

سریع ترین، مختصرترین و ارزان ترین روش فهم موضوعات مطرح شده در یک متن با بررسی کلید واژه ها یا کلمات کلیدی آن حاصل می شود. خواننده با بررسی موشکافانه این دسته از کلمات به حوزه های موضوعی و محورهای اصلی تحت پوشش متن پی خواهد برد. علاوه بر این کاربرد مهم؛ از کلیدواژه ها در موتورهای جستجو و بسیاری از فرآیندهای پردازش زبان طبیعی مانند سیستم های پرسش و پاسخ هوشمند، دسته بندی متون، سیستم های تولید خلاصه یا چکیده نیز استفاده می شود. به دلیل اهمیت کلیدواژ ه ها، روش های خودکار، سریع و دقیق استخراج این دسته از کلمات مورد توجه هستند. بیشتر تحقیقات صورت گرفته در حوزه ی استخراج کلیدواژه ها در زبان فارسی با تمرکز بر روی روش های آماری و ملاک قرار دادن تعداد تکرار کلمات در متن صورت پذیرفته است. نتایج نشان می دهد که تعداد تکرار کلمات ملاک دقیقی برای شناسایی این دسته از کلمات نیست. اما در زبان انگلیسی با وجود پیکره های بزرگی مانند wordnet و verbnet و ابزارهای دقیق برچسب زنی نحوی بیشتر تحقیقات با تمرکز بر روی روش های زبان شناسی که از دقت بالاتری برخوردار هستند صورت پذیرفته است. در این پایان نامه، استخراج کلیدواژه های متون فارسی با تمرکز بر روی معنا و شناسایی بخش هایی از یک مستند که از بار معنایی بالاتری نسبت به سایر قسمت های متن برخوردار هستند؛ به عنوان بنیادی ترین ایده دنبال شده است. استفاده از روش های وزن دهی برای شناسایی زنجیره ی واژگان، بکارگیری کلاس های معنایی فعل و توجه به قطبیت افعال در شناسایی جملات مهم، تهیه و تولید پیکره های زبان شناسی به عنوان موضوعات تکمیل کننده بکار گرفته شده است. بکارگیری ایده های مطرح شده در این پایان نامه، حجم کلمات و جملات مورد بررسی را تا 70 درصد کاهش می دهد. به طور متوسط در بین 5 کلیدواژه ی اول استخراج شده، حداقل 3 کلیدواژه نویسنده ی متن دیده می شود و بیش از 85 درصد کلیدواژه های استخراج شده کاملا مرتبط با متن و محورهای اصلی آن هستند.