نام پژوهشگر: مرتضی طامندی

تطبیق دهنده مبتنی بر محتوا برای طرح واره های xmlبا داده های فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  مرتضی طامندی   سعید عربان

در کنار ظهور مفاهیمی مانند دولت الکترونیک و ارتباطات یکپارچه، موضوع ارتباط سیستم های اطلاعاتی سازمان های مشترک المنافع و یا سازمان های همکار، اهمیت ویژه ای پیدا کرده است. یکی از پرکاربردترین راهکارها در راستای نیل به این هدف، استفاده از زبان xml و ذخیره سازی فراداده ها در قالب مستندات مبتنی بر این زبان است. اما با توجه به ساختار منعطف این زبان، هر سازمان مطابق با نیاز های کاربردی خود اقدام به طراحی ساختار خاصی برای ذخیره سازی فراداده خود می کند و همین تنوع ساختارها، همکاری بین سیستمی را مشکل می کند. تطبیق طرح واره، یکی از روش هایی است که در شرایط فوق، برای تضمین قابلیت همکاری بین سیستم ها، به کار گرفته می شود. روش ها، الگوریتم ها و ابزارهای متنوعی برای حل این مسئله در حوزه های دانشگاهی و تجاری، پیشنهاد و پیاده سازی شده اند اما وابستگی این ابزارها به منابع جانبی از قبیل شبکه واژگان، لغت نامه های اختصاصی و در نظر نگرفتن ضعف طراحی طرح واره باعث می شود که این ابزارها برای تطبیق برخی طرح واره هادر حوزه های عملیاتی، از کیفیت کافی برخوردار نباشند. در این تحقیق، تلاش بر آن است که با ارائه روش های تطبیق محتوا محور طرح واره ها، با تکیه بر اصل مقادیر داده ای، ضعف های اشاره شده تا حدی جبران شود. در این روش، با استفاده از مقایسه تجمیعی مقادیر داده در قالب مستندات متنی و به کارگیری تکنیک های تشابه سند و نمونه برداری آگاه از کیفیت برای هر طرح واره، کیفیت عملیات انطباق بهبود داده شده است. علاوه بر این در ابزار تولید شده با به کارگیری راهکارهای اختصاصی برای زبان فارسی در پردازش متن، انطباق دهنده مناسبی برای طرح واره های فارسی پیشنهاد شده است. آزمایش های عملی بر روی چهار مجموعه طرح واره با داده های فارسی حاکی از بهبود عملکرد روش پیشنهادی (معیار f-measure)تا حدود 18 درصد نسبت به یکی از ابزارهای مشهور این حوزه (coma++) می باشد.