فاطمه صدقی

نام پژوهشگر: فاطمه صدقی

رفع ابهام از همنویسه ها در متون فارسی با روش های نیمه نظارتی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
فاطمه صدقی نوشین ریاحی

در این پژوهش برای رفع ابهام از معانی همنویسه ها در متون فارسی، بر الگوریتم لیست تصمیم متمرکز شده ایم که در حالت پایه روشی نظارتی مبتنی بر پیکره است که برای آموزش طبقه بند تنها از کلمات پیرامون هم نویسه که همرخداد نامیده میشوند در پیکره ی آموزشی استفاده می کند. پیکره ی کوچکی برچسبگذاری شده و تلاش بر این بوده که با استفاده از پیکره های بدون برچسب که به سادگی و در اندازه های بزرگ در دسترس اند کارایی الگوریتم لیست تصمیم که تحت تأثیر کمبود نمونه های برچسبدار است، بهبود یابد. نخست با الهام از tri-training یک روش نیمه نظارتی معرفی شده که از سه دیدگاه نحوی افعال، اسامی و حروف؛ برای خودگردانسازی آموزش یعنی برچسبگذاری یک پیکره ی بزرگ با استفاده از یک فرضیه ی یادگیری شده از روی یک پیکره ی کوچک برچسبدار بهره میبرد. روش نیمه نظارتی tri-training روشی تکرارشونده است که کارایی آن به تخمین دقت طبقه بند مرحله ی قبل وابسته است و ازاین رو در صورت پایین بودن دقت برچسبگذاری طبقه بند مرحله ی قبل، ممکن است کارایی مطلوب به دست نیاید. استفاده از سه دیدگاه گرامری به بالا رفتن دقت کمک میکند. ارزیابی انجام شده نشاندهنده ی بهبود نتایج فراخوان تقریبا بین 2 تا 45 درصد، نسبت به لیست تصمیم پایه در هنگام کوچک بودن نمونه های آموزشی است. همرخدادها ویژگی مهمی در آموزش فرضیه های یادگیری روشهای رفع ابهام اند. تشخیص همرخدادهای موثر و تخصیص طبقه به هریک از آنها در هر یک از روشهای رفع ابهام به نحو خاصی انجام می شود. کوچک بودن پیکره ی آموزشی در روش های مبتنی بر پیکره بر این تشخیص ها تأثیر نامطلوب می گذارد. بنابراین از روش های استخراج همرخدادی به وسیله ی پیکره های بزرگ بدون برچسب میتوان بهره برد. روش به کار رفته در این پژوهش علاوه بر توانایی تشخیص همرخدادها میتواند جایگاه های هم رخدادی نسبت به همنویسه که موضوع تأثیرگذاری بر کارایی است را نیز تعیین کند. ارزیابیها نشان داده که استفاده از این همرخدادها میتواند دقت لیست تصمیم را عمدتا بین 2 تا 3 درصد بالا ببرد. در سومین روش پیشنهادی از ایده ی استخراج هم رخدادهای پیشنهاد شده در روش پیشنهادی دوم استفاده شده تا دقت خودگردان سازی الگوریتم tri-training افزایش یابد. به این ترتیب این امکان فراهم می شود تا بدون استفاده از سه دیدگاه گرامری نیز-که به معنای نیازمندی به برچسب گذاری گرامری پیکره ی بدون برچسب بود- بتوان خودگردانسازی را بهبود داد.