تلفیق خوشه بندی و مدل مارکوف در یک چارچوب جدید برای پیش بینی صفحه بعدی انتخابی توسط کاربر

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه امام رضا علیه السلام - دانشکده مهندسی کامپیوتر
نویسنده مهدی مقیمی
استاد راهنما مهرداد جلالی
سال انتشار 1393

چکیده

مساله وبکاوی در حوزه های زیادی مورد کاربرد می باشد. سه شاخه اصلی این حوزه یعنی ساختارکاوی وب ، کاربردکاوی وب و محتواکاوی وب می باشند. ساختار کاوی وب به استخراج ساختار سایت و کار بر روی آن می پردازد. کاربردکاوی وب که حوزه ای می باشد که ما بر روی آن کار کرده ایم به صورت تخصصی بر روی فایل رخداد سرویس دهنده متمرکز می شود. محتوا کاوی وب نیز بر روی محتوای صفحات و پردازش آن تمرکز می کند. مسائلی که پیش بینی در آنها مطرح می شود، دو گروه می باشند •مسائلی که پیش بینی با هدف طبقه بندی ورودی ها و تعیین اینکه هر ورودی متعلق به چه طبقه ای است انجام می شود. خروجی در اینجا یک متغیر اسمی است. •مسائلی که با تخمین یا رگرسیون پیشگویی یک متغیر پیوسته مثل تعیین قیمت روز بعد سهام، انجام می پذیرد. در اینجا خروجی متغیر عددی می باشد. غالباً شاخص هایی برای ارزیابی صحت پیش بینی استفاده می شوند. معیارهای خطای پیش بینی هر چه کمتر باشند نمایانگر پیش بینی دقیق تر هستند. ما در کاربرد خود به پیش بینی صفحه بعدی کاربر پرداخته و این کار را به کمک یک روش احتمالی قدرتمند یعنی روش مارکوف و یک چارچوب به منظور افزایش قدرت روش های دیگر پیش بینی و همچنین افزودن روش هایی مانند رگرسیون و یا svm انجام می دهیم. هدف اصلی از موضوع وبکاوی، پیش بینی رفتار بعدی کاربری که به سیستم وارد شده برای پیشنهاد دادن بهترین گزینه دلخواه وی به وی می باشد. کاربرد کاوی وب زیر مجموعه ای از این حوزه می باشد که به کمک فایل لاگ سرویس دهنده سیستم و رفتار قبلی که از این فایل استخراج می شود به پیش بینی صفحه بعدی کاربران می پردازد. یکی از ویژگی های کار با این فایل ها، توانایی استخراج جریان کلیک کاربران می باشد که این گزینه ما را در بسیاری از عملیات وب کاوی یاری می کند. یک وظیفه مهم در هر عملیات داده کاوی پیش پردازش یا آماده سازی داده است. این فرایند برای انجام الگوریتم های داده کاوی و آماری لازم است و در کاربرد کاوی وب اهمیت زیادی دارد. پیش پردازش داده ها اغلب وقت گیر بوده و محاسبات فراوانی نیاز دارد. این محاسبات شامل الگوریتم ها و استدلال های خاصی است که در حوزه های دیگر بکار برده نمی شوند. عناصر اصلی پیش پردازش داده های کاربردی وب را می توان بطور اجمالی به این صورت بیان نمود: ادغام یا ترکیب، پاکسازی داده ، شناسایی کاربر و شناسایی جلسه . به وسیله انجام تکنیک هایی به نام پیش پردازش، از فایل سرویس دهنده، فایلی جدید بدست می آید که هر سطر آن را یک نشست یا تراکنش می نامیم و حاوی صفحاتی می باشد که کاربر بخصوصی از سایت ما بازدید کرده است. چالش هایی در حوزه وبکاوی مطرح می شود از جمله وجود پیچیدگی های زمانی و فضایی زیادی که این روش ها متحمل می شوند. همچنین صحت پایین پیش بینی صفحه بعدی کاربر نیز از دیگر چالش ها می باشد. ما در این پژوهش ضمن بررسی کامل روش های پیش پردازش فایل های لاگ سرویس دهنده و ترکیب دو روش به منظور پردازش این فایلها، یک چارچوب ترکیبی4 مناسب ارائه می کنیم که علاوه بر افزایش صحت پیش بینی، کاهش زمان پیش بینی را موجب می گردد. ما از (awad, m. a., khalil, i, 2012) برای ارائه این چارچوب الهام گرفته ایم. همچنین هدف دیگر ما بهبود صحت مقاله شماره (khalil, 2009 , poornalatha, 2012)می باشد. خوشه بندی یکی از شاخه های یادگیری بدون نظارت می باشد و فرآیند خودکاری است که در طی آن، نمونه ها به دسته هایی که اعضای آن مشابه یکدیگر می با¬شند تقسیم می شوند که به این دسته ها خوشه گفته می¬شود. بنابراین خوشه مجموعه ای از اشیاء می باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشه های دیگر غیر مشابه می باشند. برای مشابه بودن می توان معیارهای مختلفی را در نظر گرفت مثلا می توان معیار فاصله را برای خوشه بندی مورد استفاده قرار داد و اشیائی را که به یکدیگر نزدیکتر هستند را بعنوان یک خوشه در نظر گرفت که به این نوع خوشه بندی، خوشه بندی مبتنی بر فاصله نیز گفته می شود. خوشه¬ بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه¬ ها یا خوشه ¬های همگن گفته می¬شود. وجه تمایز خوشه¬بندی از دسته¬بندی این است که خوشه¬بندی به دسته¬های از پیش تعیین شده تکیه ندارد. در دسته¬بندی بر اساس یک مدل هر کدام از داده¬ها به دسته¬ای از پیش تعیین شده اختصاص می¬یابد؛ این دسته¬ها یا از ابتدا در طبیعت وجود داشته-اند(مثل جنسیت، رنگ پوست و مثال¬هایی از این قبیل) یا از طریق یافته¬های پژوهش¬های پیشین تعیین گردیده¬اند . در خوشه¬بندی هیچ دست? از پیش تعیین شده¬ای وجود ندارد و داده¬ها صرفاً براساس تشابه گروه¬بندی می¬شوند و عناوین هر گروه نیز توسط کاربر تعیین می¬گردد. به طور مثال خوشه¬های علائم بیماری¬ها ممکن است بیماری¬های مختلفی را نشان دهند و خوشه¬های ویژگی¬های مشتریان ممکن است حاکی از بخش¬های مختلف بازار باشد خوشه¬بندی معمولاً به عنوان پیش درآمدی برای بکارگیری سایر تحلیل¬های داده¬کاوی یا مدل¬سازی به کار می¬رود. به عنوان مثال، خوشه¬بندی ممکن است اولین گام در تلاش برای تقسیم¬بندی بازار باشد؛ برای ایجاد یک قانون که در هم? موارد کاربرد داشته باشد و به این سوال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می¬دهند اول باید مشتریان را به خوشه¬ های متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می¬ کند در این پژوهش بر روی مجموعه داده های استاندارد کار شده که بسیار حجیم می باشند. مقاله (khalil, f. and etc, 2009)از روش خوشه بندی اصلاح شده کامیانه(zhu, 2010) برای خوشه بندی تراکنش های کاربران در فاز برون خط استفاده کرده است. آنها همچنین در فاز برخط کار خود، از یک روش ابداعی برای سوق دادن کاربران جدیدی که به سیستم وارد می شوند به بهترین خوشه استفاده می کنند و از این روش برای پیش بینی صفحه بعدی کاربر بجای استفاده از مدل های معمولی مانند مدل مارکوف استفاده می کنند. یکی از مشکلات این مقاله ، کار بر روی تنها یک مجموعه داده می باشد که صحت و دقت کار را به صورت کامل به خواننده منتقل نمی کند. ما در این مسیر از سه مجموعه داده استفاده خواهیم کرد زیرا این کار شفافیت بیشتری به پژوهش ما می دهد. همچنین نشان می دهیم که نتایج کار ما از این مقاله بهتر است. مقاله شماره (poornalatha, g. and etc, 2012) نیز از مدل مارکوف مرتبه دو استفاده نموده و به کمک یک روش ابداعی؛ این مدل را با مدل arm ترکیب می نماید و از خوشه بندی برای افزایش صحت پیش بینی استفاده می کند. یکی از معایب این مقاله ، کار بر روی مجموعه داده های با حجم کم می باشد . عیب دیگر آن پیچیدگی محاسباتی بالای مدل arm نسبت به مدل مارکوف می باشد. از طرفی، از مدل arm در مواقعی استفاده می شود که سیستم دو صفحه با احتمال یکسان را به عنوان پیشنهاد بر می گرداند. ما متوجه شدیم این مورد یک حالت خاص می باشد و در صحت کار کمتر از دو درصد تاثیر دارد. ما در این پژوهش، با پیاده سازی و بررسی این مدل متوجه شدیم که کار ما صحت بسیار بالاتری از این مدل نمایش می دهد. چارچوب مورد نظر ما طوری طراحی شده است که می توان آن را گسترش داد و در فاز پیش بینی، روش پیش بینی دیگری را جایگزین روش موجود نموده و یا به روش موجود روشی جدید افزود. همچنین نشان می دهیم که کار ما نسبت به مدل مارکوف با تمام مراتب5 صحت پیش بینی را به میزان قابل قبولی افزایش داده است. تقلیل ابعاد یا فروکاهی ابعاد به فرایند کاستن و کم کردن از تعداد ابعاد و متغیرهای مورد نیاز برای نمایش و بررسی مسائل مطروحه در ریاضیات، آمار، فیزیک، مهندسی، و بسیاری از شاخه های علوم محاسباتی و پیچیده? نوین اطلاق می شود. در ادبیات تحلیل های چند متغیری اساسا به روش هایی که برای کاهش ابعاد استفاده می شود، روش های محوری یا روش های هندسی گفته می شود. کاهش ابعاد به دو دسته انتخاب ویژگی و استخراج ویژگی تقسیم می شود. در انتخاب ویژگی که در فضای اندازه گیری انجام می شود هدف پیدا کردن ویژگی های مطلوب از بین کل ویژگی های موجود است در حالی در استخراج ویژگی هدف انتقال ویژگی های انتخاب شده از فضای با ابعاد بیشتر به فضای با ابعاد کمتر و تعداد متغیرهای کمتر می باشد. در روش انتخاب ویژگی به دنبال زیرمجموعه ای از متغیرهای اصلی مساله (که ویژگی یا خصوصیت نیز نامیده می شوند) هستیم که بتواند به درستی نمونه های مساله را از هم تفکیک کند. استخراج ویژگی فرایندی است که در آن داده ها در فضای با بعد بالا به فضای با بعد کمتر نگاشت می شوند. این نگاشت می تواند خطی مانند روش تحلیل مولفه های اصلی یا غیر خطی باشد. آنچه مشخص است استفاده از روش های کاهش ابعاد غیر خطی در کاربرد ما مناسب نمی باشد. ما در این پژوهش یک روش عمومی خطی به منظور کاهش ابعاد نشست های کاربران ارائه خواهیم کرد که در روش های خوشه بندی مبتنی بر فاصله و شباهت سنجی، نتایج مناسب و حتی بهتر از زمانی است که از روش های سنتی بدون کاهش ابعاد مجموعه داده و یا استفاده از روش های کاهش ابعاد رایج استفاده میشود. کاهش ابعاد مجموعه داده های کاربران وب زمان زیادی نیست وارد دنیای داده کاوی شده است. مرجع(pallis, g.,2002) اذعان می کند که اعمال الگوریتم هایی مانند pca به مجموعه داده ها به صورت مستقیم نتایج مناسبی را در بر ندارد، ما در این پژوهش خلاف این حرف را در حوزه کاهش ابعاد جریان کلیک کاربران نشان می دهیم. همچنین نشان می کنیم که مشکل اصلی کار با این روش ها، پیچیدگی آنها نسبت به کار ما می باشد. هر چند که روش ما سرعت و دقت بالاتری به ارمغان می آورد. روش های زیادی به منظور افزایش سرعت و کاهش زمان انجام عملیات خوشه بندی طراحی و پیاده سازی شده است. در این مقالات روش های مختلفی ارائه شده است که عموماً برای زمانی مناسب می باشند که مجموعه دادگان تُنُک باشند. اگر مجموعه دادگان چگال باشد، این روش ها با مشکل مواجه می شوند.(m. belkin and p. niyogi,2002) ما در این پژوهش علاوه بر روش pca (d.l. donoho and ,2005) روش های مختلف کاهش ابعاد دیگری مانند ((z. zhang and h. zha ,2005) (lda ، (v. de silva and j.b. tenenbaum ,2004) isomap ، (x. he and p. niyogi ,2004) fastmvu، (dempster and etc,1977)kernelpca ، (j. verbeek ,2006 (gda ، (m. daszykowski ,2002) diffusionmaps، ding, chris, and xiaofeng he,2004)) autoencoderrbm.، (george, aloysius. ,2013)lle ، (valarmathie, p and etc ,2009) laplacian، (2011prabhu, p., and n. anbazhagan,) hessianlle، (ansari, zahid and etc, 2011) ltsa ، (valarmathie pand and etc , 2009) conformal ، (prabhu, p and n. anbazhagan, 2008)lpp، (poornalatha, g.and etc, 2011) llc، (li, jinhua 2011) cfa را بر روی مجموعه داده خود به کمک یک جعبه ابزار آماده از (m. belkin and p. niyogi,2002) که برای نرم افزار متلب طراحی شده است اعمال کردیم، اما تمامی روش ها بجز pca دارای پیچیدگی زمانی زیادی برای کار با داده های ما بودند. لذا در بخش ارزیابی نتایج از مقایسه با این شیوه ها خودداری شده است. یکی دیگر از اهداف این کار، ارائه راهکاری به منظور استفاده از روش های رایج خوشه بندی سلسله مراتبی مانند optics می باشد که برای مجموعه داده هایی مانند داده های کاربران وب سایت ها بسیار وقت گیر و در مواردی غیر قابل انجام می باشد. یکی از چالش هایی که با این مدل خوشه بندی داشتیم، حافظه مصرفی آن بود. به منظور استفاده از روش اپتیکس، از (jolliffe i.t, 2002) استفاده نمودیم. تا آنجا که جستجو شده است، این روش تاکنون برای خوشه بندی داده های کاربران فضای وب مورد استفاده قرار نگرفته است، در نتیجه بر آن شدیم تا از این روش هم به منظور اثبات کار خود و هم به منظور وارد ساختن آن به حوزه خود استفاده کنیم. به منظور کاهش ابعاد مجموعه داده خود نیز از کوانتیزه کرده مجموعه داده ها استفاده کردیم و ابعاد آن را بدون کاهش صحت و حتی افزایش آن از سی الی سیصد برابر کاهش دادیم. همچنین روش های معتبر و معروف کاهش ابعاد مجموعه داده مانند روش pca را مورد بررسی قرار دادیم و متوجه شدیم روش ما بهترین صحت و سرعت و حافظه را در این کاربرد نصیب ما می کند. نظم منطقی بحث به این صورت می باشد که در بخش دوم تاریخچه ای از کارهای انجام شده در حوزه مربوطه خواهیم داشت، در بخش سوم چارچوب پیشنهادی خود را تشریح کرده و مراحل اصلی آن را به صورت تفضیلی مورد بررسی قرار می دهیم. در بخش چهارم به ارزیابی چارچوب خود پرداخته و در بخش آخر با بحث در خصوص چارچوب خود، به نتیجه گیری و تشریح کارهای آینده می پردازیم.

منابع مشابه

استفاده از خوشه بندی و مدل مارکوف جهت پیش بینی درخواست آتی کاربر در وب

متن کامل

پیش بینی شاخص بازار سهام به وسیله مدل مارکوف پنهان و روش خوشه بندی کا میانگین

پیش‌بینی بازار سهام یک مسئله کلاسیک میباشد که تا کنون به طور گسترده ای به وسیله ابزار‌ها و مدل های مختلف مورد تجزیه و تحلیل قرار گرفته است.تغییرات روند بازار سهام ناشی از تقابل نیرو های عرضه و تقاضا و دیگر عوامل اقتصادی است. تکنیک های اماری سنتی برای توصیف روند های فصلی و نامانایی داده های قیمت در بازار سهام ناتوان هستند. مدل مارکوف پنهان یکی از ابزار های بسیار قدرت مند در پردازش فرایند های اتف...

متن کامل

پیش بینی قیمت سهام با استفاده از تلفیق مدل مارکوف پنهان و زنجیره مارکوف

در این تحقیق، تلفیقی از مدل «مارکوف پنهان» و مفهوم «زنجیره مارکوف» بهمنظور پیشبینی رفتار بازارهای مالی ارائه شده است. این ابزار توسعهیافته میتواند در تجزیهوتحلیل بازار سهام، کاربردی مناسب داشته باشد. در ابتدا از الگوریتم ژنتیک بهمنظور تعیین و تنظیم پارامترهای مدل «مارکوف پنهان» استفاده میشود؛ سپس از مدل «مارکوف پنهان» تنظیم شده برای شناسایی و شناخت الگوهای مشابه در دادههای تاریخی استفاد...

متن کامل

استفاده از الگوریتم lz78 برای پیش بینی درخواست صفحه بعدی کاربر در محیط وب

هدف از این پایان نامه مدل سازی رفتار کاربران در وب به منظور پیش بینی رفتار آن هاست. پیش بینی صفحات وب در سال های اخیر مورد توجه پژوهشگران و شرکت های تجاری بزرگ قرار گرفته است و به منظور شخصی سازی صفحات وب، راهنمایی و هدایت کاربر و همچنین پیش واکشی صفحات وب بکار می رود. با پیش بینی رفتار کاربر می توان، صفحات وب را با نیاز وی تطبیق داد و اطلاعات بهتری در اختیار کاربر نهاد. پیش واکشی اطلاعات نیز ا...

ارائه مدل یک بعدی جدید برای تحلیل عملکرد اجکتور

در این مقاله، برای پیش بینی عملکرد اجکتور یک مدل یک بعدی جدید ارائه شده است. با در نظر گرفتن اختلاط در فشار ثابت، این مدل بر اساس دینامیک گازها و حل معادلات مربوط به بقای جرم، مومنتوم و انرژی، پایه ریزی شده است. این مدل قادر است که نسبت مساحت و نسبت مکش اجکتور را در شرایط مختلف ترمودینامیکی، با دقت بالایی پیش بینی نماید. جهت در نظر گرفتن تلفات ناشی از لزجت سیالات و اختلاط دو جریان، برای بخش های...

متن کامل

توسعه مدل سه بعدی MP-MPS برای پیش بینی الگوی جریان در گرادیان های شدید هیدرولیکی

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه امام رضا علیه السلام - دانشکده مهندسی کامپیوتر

کلمات کلیدی

مدل مارکوف خوشه بندی کاوش استفاده از وب پیش بینی صفحه وب شبکه گسترده جهانی داده کاوی واسط کاربر

میزبانی شده توسط پلتفرم ابری doprax.com