نام پژوهشگر: محمدصادق شیخایی

خوشه بندی سریهای زمانی با استفاده از الگوریتم ژنتیک
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1386
  محمدصادق شیخایی   احمد عبداله زاده

در سالهای اخیر داده کاوی برروی سریهای زمانی توجه بسیاری را به خود جلب کرده است. شاید بتوان گفت از میان تمام تکنیکهای به کار برده شده برروی سریهای زمانی، خوشه بندی پر استفاده ترین تکنیک می باشد. خوشه بندی سریهای زمانی می تواند به دلایل مختلفی مانند یافتن الگوهای پنهان در داده ها و جستجوی شباهتها انجام شود. سریهای زمانی معمولاً دارای ابعاد طولانی هستند که این امر کار پردازش آنها را چه از نظر حافظه و چه از نظر زمان با مشکل روبرو می سازد. اما خوشبختانه به دلیل وابستگی زیاد بین مقادیر متوالی یک سری زمانی، تکنیکهای کاهش ابعاد داده راهکار مناسبی برای حل مشکل ابعاد آنها می باشد. با توجه به اینکه موضوع مورد بررسی ما خوشه بندی است، ما به بررسی تأثیر پنج روش مختلف کاهش ابعاد داده در خوشه بندی به وسیله الگوریتم k-means پرداخته و با انجام آزمایشات وسیع به این نتیجه رسیدیم که خوشه بندی برروی درصد بسیار کمی از مهمترین مولفه های استخراج شده از داده ها می تواند به نتایجی بسیار نزدیک به خوشه بندی برروی داده های اصلی منجر شود. همچنین با ایجاد دو تغییر اساسی در روش random projection، روش جدیدی به نام sample based projection برای کاهش ابعاد داده ارایه کردیم که در آزمایشات انجام شده، عملکرد خوبی از خود به نمایش گذاشت بطوری که وقتی ابعاد داده های کاهش یافته را کوچک (مثلاً کمتر از 8) در نظر گرفتیم، از پنج روش دیگر بجز روش principle component analysis بهتر عمل کرد. در ادامه الگوریتمی به نام aku-kmeans برای خوشه بندی سریهای زمانی ارایه کرده ایم که چه از نظر زمان اجرا و چه از نظر معیار icv (که از آن برای ارزیابی خوشه بندی استفاده کرده ایم) بهتر از الگوریتم k-means عمل می کند. در روش پیشنهاد شده، الگوریتم k-means برروی داده های بُعدی انجام می شود که عددی کوچک مانند 1، 2 و یا 4 می باشد. سپس بطور متوالی ابعاد داده ها از به افزایش یافته و الگوریتم k-means برروی داده های کاهش یافته جدید که دارای دقت بیشتری هستند انجام می شود. این روند آنقدر ادامه می یابد تا خوشه بندی بهتری پیدا نشود. از آنجایی که خوشه بندی یکی از مسایل بهینه سازی به شمار می آید از الگوریتم ژنتیک نیز می توان برای حل آن استفاده نمود. تا کنون چندین روش برای خوشه بندی داده ها با استفاده از الگوریتم ژنتیک ارایه شده است اما در هیچکدام از آنها توجهی به ابعاد داده ها نشده است. ما با به کار گیری ایده مطرح شده در الگوریتم aku-kmeans، یک الگوریتم ژنتیک برای خوشه بندی سریهای زمانی ارایه کردیم.