نام پژوهشگر: ریحانه امامدادی

خزش متمرکز وب با هدف کشف اسناد وب معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  ریحانه امامدادی   محسن کاهانی

با توجه به گسترش روزافزون وب معنایی و افزایش حجم داده های معنایی بر روی وب، لازم است تا این داده ها با کمک ابزار هایی از سطح وب جمع آوری شوند تا بتوان از آنها در کاربرد های مختلف استفاده کرد. یکی از ابزار های مهم در این زمینه، خزنده وب است. خزنده وب، برنامه ای است که اسناد را به طور خودکار و با دنبال کردن پیوند های داخل آنها، از سطح وب جمع آوری می کند. در حوزه وب معنایی، هدف خزنده جمع آوری اسناد وب معنایی است. عدم پیوند کافی بین این اسناد و احاطه شدن آنها توسط اسناد html، موجب شده است تا بسیاری از خزنده های وب معنایی، علاوه بر اسناد وب معنایی، اسناد html را نیز واکشی کنند. اما با توجه به حجم بالای اسناد html و غیر معنایی بودن بسیاری از پیوند های داخل آنها، واکشی این اسناد و پیمودن همه مسیر های ایجاد شده توسط آنها، باعث اتلاف منابع و پایین آمدن سرعت دستیابی به اسناد وب معنایی می شود. در این پایان نامه، یک خزنده وب معنایی ارائه شده است که از خزش متمرکز برای حل مشکلات بیان شده استفاده می کند. در خزش متمرکز، هدف خزنده جمع آوری اسناد در مورد یک موضوع خاص است و پیوند ها بر مبنای میزان ارتباطشان با موضوع مورد نظر اولویت بندی می شوند. اما در خزنده پیشنهادی، به جای خزش موضوعی، پیوند های استخراج شده از اسناد html تحلیل می شوند و بر مبنای توانایی شان در دستیابی به اسناد وب معنایی اولویت بندی می شوند. برای این منظور، خزنده از دو تابع ارتباط استفاده می کند. نتایج ارزیابی ها نشان می دهد که بکارگیری فرآیند خزش متمرکز و توابع ارتباط پیشنهادی، موجب دستیابی سریعتر به اسناد وب معنایی و کاهش حجم واکشی اسناد غیر معنایی می شود.