نام پژوهشگر: حسین زلفی

کاوش الگوهای تکراری پرسود در پایگاه داده های بزرگ
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و الکترونیک 1391
  حسین زلفی   محمدهادی صدرالدینی

داده­کاوی مجموعه اقلام پرسود در پایگاه داده تراکنشی، منجر به شناسایی مجموعه اقلام با بالاترین سودمندی می­شود. گرچه در سال های اخیر الگوریتم­های بسیاری برای این نمونه کار پیشنهاد شده است، اما این الگوریتم­ها، اکثراً، کارائی خود را صرف تولید مجموعه اقلام کاندید برای تولید مجموعه اقلام پرسود می­نمایند. چنانچه پایگاه داده دارای تعداد تراکنش­های بسیار زیاد و یا دارای مجموعه اقلام پرسود خیلی طولانی باشد، تولید مجموعه اقلام کاندید بسیار دشوار و زمان­بر خواهد شد. در این پایان­نامه، به منظور حل مشکل مذکور، الگوریتم جدیدی به نام pup-growth، ارائه شده است. این الگوریتم، کاوش مجموعه اقلام پرسود را به کمک چند راهبرد موثر برای هرس کردن مجموعه اقلام کاندید و استفاده از سیستم های چند هسته­ای انجام می­دهد. در این الگوریتم، اطلاعات مجموعه اقلام در ساختار داده up-tree ذخیره می شود. مجموعه اقلام کاندید، به صورت کارا و تنها با دو اسکن پایگاه داده تولید می­شوند. با استفاده از موازی­سازی، جنگلی از up-tree ها برای ذخیره مجموعه اقلام، ایجاد می شود. این امر موجب می­شود که کارائی الگوریتم در مقایسه با الگوریتم اولیه، وقتی از مجموعه داده واقعی و ساختگی استفاده می شود، بهبود چشمگیری یابد. به طوریکه بهبود بدست آمده به میزان 65% می­باشد. مشاهدات نشان می دهد، هنگامی که تعداد تراکنش­های طولانی، زیاد باشد، الگوریتم ما بسیار کارا است.