حسین زلفی

نام پژوهشگر: حسین زلفی

کاوش الگوهای تکراری پرسود در پایگاه داده های بزرگ

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و الکترونیک 1391
حسین زلفی محمدهادی صدرالدینی

دادهکاوی مجموعه اقلام پرسود در پایگاه داده تراکنشی، منجر به شناسایی مجموعه اقلام با بالاترین سودمندی میشود. گرچه در سال های اخیر الگوریتمهای بسیاری برای این نمونه کار پیشنهاد شده است، اما این الگوریتمها، اکثراً، کارائی خود را صرف تولید مجموعه اقلام کاندید برای تولید مجموعه اقلام پرسود مینمایند. چنانچه پایگاه داده دارای تعداد تراکنشهای بسیار زیاد و یا دارای مجموعه اقلام پرسود خیلی طولانی باشد، تولید مجموعه اقلام کاندید بسیار دشوار و زمانبر خواهد شد. در این پایاننامه، به منظور حل مشکل مذکور، الگوریتم جدیدی به نام pup-growth، ارائه شده است. این الگوریتم، کاوش مجموعه اقلام پرسود را به کمک چند راهبرد موثر برای هرس کردن مجموعه اقلام کاندید و استفاده از سیستم های چند هستهای انجام میدهد. در این الگوریتم، اطلاعات مجموعه اقلام در ساختار داده up-tree ذخیره می شود. مجموعه اقلام کاندید، به صورت کارا و تنها با دو اسکن پایگاه داده تولید میشوند. با استفاده از موازیسازی، جنگلی از up-tree ها برای ذخیره مجموعه اقلام، ایجاد می شود. این امر موجب میشود که کارائی الگوریتم در مقایسه با الگوریتم اولیه، وقتی از مجموعه داده واقعی و ساختگی استفاده می شود، بهبود چشمگیری یابد. به طوریکه بهبود بدست آمده به میزان 65% میباشد. مشاهدات نشان می دهد، هنگامی که تعداد تراکنشهای طولانی، زیاد باشد، الگوریتم ما بسیار کارا است.