نام پژوهشگر: راضیه برادران

کاوش و استخراج رویدادهای مرتبط به اشخاص در متون عربی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی 1391
  راضیه برادران   بهروز مینایی بیدگلی

استخراج رویداد یکی از مهم ترین و چالش برانگیزترین وظیفه های استخراج اطلاعات است؛ که به عنوان زیربنایی برای بسیاری از کاربردهای پردازش زبان طبیعی مانند جستجوی معنایی اطلاعات، خلاصه سازی متون و غیره به شمار می رود. استخراج رویداد به تشخیص و استخراج رویدادهای مهم مانند رویداد مرگ، تولد، درگیری و دیگر موارد در متونی با زبان طبیعی می‎پردازد. استخراج رویداد از دو مرحله‎ی کلی استخراج حوزه‎ی رویداد و استخراج اطلاعات و یا عوامل درگیر در رویداد تشکیل شده است. در این پایان نامه به استخراج رویداد و اطلاعات مربوط به آن در متون اسلامی تاریخی عربی پرداخته شده است؛ که دارای ساختار زبان شناسی پیچیده و متفاوت نسبت به متون متداول امروزی است و می‎تواند ابزاری بسیار مفید برای محققین در این حوزه باشد. تشخیص درست حوزه ی رویداد و تعیین جملاتی که رویداد را توصیف می کنند به عنوان اولین و موثرترین گام، صحت فرایند استخراج اطلاعات رویداد را تحت تأثیر قرار می دهد. از این رو در این پایان نامه ابتدا به پیاده سازی و مقایسه ی کارایی عملی و کاربرد روش های گوناگون استخراج حوزه رویداد پرداخته شده است که می تواند محققین را در انتخاب روش مناسب استخراج رویداد با توجه به امکانات و شرایط موجود کمک نماید. در این پژوهش سه شیوه ی دانش گرا (مبتنی بر مجموعه کلمات کلیدی و قوانین)، داده گرا (مبتنی بر ماشین بردار پشتیبان) و معناگرا (مبتنی بر زنجیره ی لغوی) را برای رده بندی خودکار جملات شامل رویداد در متون تاریخی عربی به کار بسته ایم و کارایی و کاربرد آن ها را با یکدیگر مقایسه نموده ایم. پیاده سازی این سیستم ها نشان می دهد که شیوه های دانش گرا و مبتنی بر یادگیری ماشین دارای دقت بسیار بالایی در فرایند استخراج رویداد است و شیوه ی معناگرا با دقت مناسب و قابل قبول نیاز به دانش تخصصی مورد نیاز روش های دانش گرا و پیش‎پردازش های مورد نیاز روش های داده گرا را کمینه می کند و خودکارسازی استخراج رویداد از متن خام را بهبود می بخشد. در گام بعد به استخراج عوامل درگیر در رویداد مانند زمان وقوع رویداد، مکان وقوع رویداد و عوامل دیگر با استفاده از شیوه‏های مبتنی بر قانون پرداختیم. روال کار به این صورت است که ابتدا پیش پردازش‏های لازم جهت استخراج اطلاعات مانند تعیین روابط گرامری جمله انجام گرفته و سپس با استفاده از یک ساختار پیمانه‎ای به استخراج هر یک از عوامل رویداد به صورت مستقل پرداخته می‏شود.