نام پژوهشگر: یوشا مندنی پور

ارائه روشی ترکیبی برای دسته بندی موضوعی صفحات وب به صورت خودکار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات 1393
  یوشا مندنی پور   رضا اکبری

اهمیت دسته بندی موضوعی صفحات وب باعث شده با پیدایش اولین سایت های اینترنتی شرکت های بزرگی مانند یاهو و aol به فکر ارائه سرویس های فهرست وب که وب سایت های مختلف را با کمک نیروی انسانی بر اساس موضوع دسته بندی می کند بیفتند. با افزایش روز افزون تعداد صفحات وب و عدم امکان دسته بندی صفحات وب به صورت دستی و همچنین پیدایش کاربرد های دیگری برای دسته بندی خودکار صفحات وب از قبیل فیلترینگ هوشمند و ایجاد نسل آینده موتور های جستجو گر، تحقیقاتی در این زمینه صورت گرفته که متاسفانه تا کنون نتیجه ای مطلوب و کاربردی حاصل نشده است. در اکثر تحقیقات پیشین در زمینه دسته بندی خودکار صفحات وب تنها از یک، دو و یا نهایتا سه مورد از ویژگی های قابل استخراج از صفحات وب استفاده گردیده است. از جمله این ویژگی ها می توان به استفاده از خواص تگ های html از قبیل تگ های متا،عنوان صفحات، تگ های تاکید، پیوند ها و صفحات همسایه، آدرس صفحات ، موقعیت مکانی کلمات و فرکانس تکرار آنها و نیز استفاده از تکنیک های آنتالوژی اشاره کرد. در روش پیشنهادی که در این پایان نامه ارائه شده است بر روی ترکیب این موارد تمرکز شده و نشان داده شده است که استفاده همزمان از ویژگی های مختلف می تواند به افزایش دقت دسته بندی صفحات وب کمک کند.