محمد حجازی

نام پژوهشگر: محمد حجازی

ارائه یک روش جدید برای خوشه بندی نام های نویسنده ها در لیست نام های مبهم

پایان نامه دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد یزد - دانشکده فنی 1392
محمد حجازی فاطمه سعادتجو

امروزه استفاده و به کارگیری اطلاعات وب یک امر حیاتی و مهم در تمامی زمینه ها به خصوص تحقیقات دانشگاهی شده است. منابع بسیار زیادی با عملکردهای گوناگون در وب سایت های مختلف، سرویس های متعددی برای کاربران و محققین ارائه می کنند. در میان منابع موجود در دنیا که در حوزه های تحقیقاتی وجود دارد، سیستم های اطلاعاتی دیجیتال کاربرد زیادی دارد. این سیستم ها یکی از منابع مهم اطلاعاتی برای جامعه علمی به حساب می آیند که سرویس های ارزنده ای را برای کاربران ارائه می کنند.بهر حال هنگامی که کاربران، نویسندگان را با استفاده از این سیستم ها بررسی می کنند، اغلب فرض می کنند که محتوای نمایش داده شده بدون خطا و ابهام می باشد، در صورتی که این مسئله به ندرت رخ می دهد. سیستم های دیجیتال اطلاعات خود را از منابع مختلف با استانداردها و اختصارات مختلف جمع آوری می کنند که این باعث چالش هایی می شود. در میان این چالش ها،نام های مشابه یکی از مهم ترین موارد می باشد و مطالعات و تحقیقات زیادی در این زمینه صورت گرفته است. روش های زیادی برای خوشه بندینام نویسنده ارائه شده است که این روش ها کل لیست بانک اطلاعاتی را خوشه بندی می کنند و خیلی هزینه بر هستند زیرا سیستم های دیجیتال شامل میلیون ها رکورد می باشد و مدام به تعداد آن ها اضافه می شود. در این پایان نامه ما یک روش اکتشافی برای تفکیک نام های نویسندگان ارائه کرده ایم که برای اجتناب از خوشه بندی کل پایگاه داده ها می باشد. برای انجام این کارابتدا می بایست پایگاه داده ها با استفاده از روشی خوشه بندی شود، سپس با استفاده از روش ما تنها رکوردهایی که به بانک وارد می شوند در خوشه مناسب قرار گیرند؛ که این باعث کاهش هزینه عملیات خوشه بندی کل لیست و افزایش صحت در خوشه های داخل بانک می شود. اگر رکورد جدید متعلق به یکی از خوشه های داخل بانک باشد، این رکورد به خوشه مربوطه وارد می شود و اگر نه به عنوان خوشه جدید در نظر گرفته می شود. ما همچنین در روش خود از اطلاعات وب برای اضافه کردن ویژگی های بیشتر و بالا بردن صحت استفاده نموده ایم. استفاده از شواهد بیشتر در عملیات خوشه بندی باعث افزایش دقت در نتایج خوشه بندی می شود. آزمایشات با مجموعه داده واقعی از یکی از کتابخانه های دیجیتال به نام dblp که ویژگی هایی به آن اضافه شد انجام شده است که نشان می دهد روش ما به طور میانگین 87 درصد صحت در نتایج خوشه بندیبه دست آورده است.