نام پژوهشگر: هادی خسروی فارسانی

رتبه بندی موجودیت در وب داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی 1391
  هادی خسروی فارسانی   محمدعلی نعمت بخش

امروزه، موتورهای جستجو به یکی از برنامه های کاربردی بسیار مهمِ وب تبدیل شده اند که هدف آن ها کمک به کاربر در جهت یافتن اطلاعات است. موتورهای جستجو همچون گوگل و یاهو کلمات کلیدی کاربر را دریافت می کنند و در صفحات وب بر اساس الگوریتم های از قبل تعریف شده به دنبال کلمات کلیدی وارد شده می گردند. سپس صفحات بازیابی شده را بر اساس الگوریتم رتبه بندی، مرتب و به کاربر نشان می دهند. با ظهور فناوری وب معنایی، نیاز به الگوریتم های متناسب با این فناوری برای رتبه بندی داده ها بیش از پیش ضروری به نظر می رسد. در این پایان نامه روشی برای رتبه بندی داده ها در داده های پیوندی پیشنهاد شده است. در ابتدا، الگوریتم pagerank توسعه داده شده است و مجموعه های داده رتبه بندی شده اند. سپس، رتبه موجودیت ها در میان موجودیت های مشابه محاسبه می شود. رتبه بندی مجموعه های داده در داده های پیوندی با ایجاد یک گراف جهت دار که گره های آن، مجموعه های داده و پیوندهای آن، تعمیم پیوند بین موجودیت ها به پیوند بین مجموعه های داده است محاسبه می شود. الگوریتم رتبه بندی pagerank بر روی گرافِ ساخته شده اعمال می شود و رتبه گره ها یا همان مجموعه های داده بدست خواهد آمد. رتبه موجودیت های درون مجموعه های داده نیز با استفاده از همان pagerank به صورت جداگانه برای هر موجودیت محاسبه می شود. رتبه نهایی یک موجودیت، برابر است با مجموع رتبه مجموعه داده هایی که به این موجودیت استناد کرده اند. ارزیابی ها نشان دهنده کارایی و دقت بالاتر روش پیشنهادی نسبت به روش pagerank است. رتبه بندی موجودیت های مشابه با استفاده از الگوریتم های خوشه بندی محاسبه شده است. دو روش خوشه بندی در این پایان نامه ارائه شده است. روش اول تنها از ساختار پیوند بین موجودیت ها استفاده می کند و روش دوم همزمان از ساختار پیوند و داده های مربوط به خصوصیت های موجودیت ها استفاده می کند. هر دو روش پیشنهادی برای خوشه بندی موجودیت ها نسبت به کارهای مشابه دارای دقت و سرعت بالاتری هستند. نهایتاً، رتبه گره ها درون مجموعه های داده حوزه ای با استفاده از pagerank محاسبه شده است. ارزیابی رتبه موجودیت با نظر متخصصین در فضای غیر مجازی نشان دهنده چیدمان درست موجودیت ها است.