نام پژوهشگر: محمد خودی زاده نهاری

ارائه یک الگوریتم مبتنی بر خوشه بندی برای تشخیص ناهنجاریهای اطلاعاتی با استفاده از داده کاوی روی grid
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1386
  محمد خودی زاده نهاری   محمدکاظم اکبری

ناهنجاریهای اطلاعاتی به آن دسته از اطلاعات گفته می شود که بنحو چشمگیری با بقیه اطلاعات متفاوت می باشند. هر مجموعه اطلاعات از یک هنجار خاصی برخوردار می باشد. بعضی اوقات نمونه هایی از اطلاعات از این هنجار تبعیت نمی کنند. یافتن این ناهنجاریها بسیار مهم بوده و کاربردهای زیادی دارد از جمله کشف تقلب در حوزه های مختلف (مانند کارتهای اعتباری)، کشف پولشویی، تحقیقات پزشکی، پیش بینی وضع هوا، پاکسازی اطلاعات، بازاریابی، تقسیم بندی مشتریان و مواردی دیگر. تشخیص ناهنجاریهای اطلاعاتی بخصوص در حوزه تجارت الکترونیکی، کمک شایان توجهی به فعالان در این عرصه می نماید تا بتوانند با اطمینان بیشتری از مزایای الکترونیکی شدن تجارت و کسب و کار بهره مند گردد. روشها و متدهای مختلفی برای تشخیص ناهنجاریهای اطلاعاتی وجود دارد. یکی از مهمترین روشها، داده کاوی می باشد که استخراج دانش از بین انبوه اطلاعات می باشد. داده کاوی شامل تکنیکهای مختلفی است که یکی از مهمترین آنها، خوشه بندی اطلاعات می باشد. خوشه بندی یک روش یادگیری بدون نظارت محسوب می شود که یک مجموعه داده را به بخش هایی (خوشه هایی) تقسیم می کند بطوریکه عناصر هر بخش بیشترین شباهت را با هم و کمترین شباهت را با اعضای دیگر بخش ها داشته باشند. ناهنجاریها در این حالت خوشه هایی هستند که چگالی کمتری داشته و در فاصله دورتری از بقیه قرار گرفته اند. هدف از این پایان نامه ارایه الگوریتمی بمنظور کشف ناهنجاریهای اطلاعاتی در محیط های توزیع شده است که بتواند در مواجهه با مجموعه داده های بزرگ و توزیع شده کارایی لازم را داشته باشد. برای این منظور الگوریتم k-window که گونه توزیع شده آن هم وجود دارد انتخاب شده و با تغییراتی که در آن داده شده است، کارایی بهتری از نظر سرعت و کیفیت در محیط های توزیع شده بدست آمده است. برای این منظور ساختار دو سطحی موجود در گونه توزیع شده k-window را به ساختار چند سطحی و سلسله مراتبی تبدیل کرده و صرفه جویی زیادی در زمان و فضای مورد نیاز حاصل شده است. تغییراتی دیگر نیز بدلیل توزیع شدگی اطلاعات در الگوریتم اعمال شده است که آن را برای اجرا در محیط های توزیع شده آماده تر میکند. ازطرف دیگر بدلیل آنکه grid یک محیط مناسب برای اجرای پردازش های سنگینِ توزیع شده می باشد الگوریتم، بمنظور اجرا در محیط grid تغییر داده شده است و علیرغم افزایش سربارِ سیستم، ضمن حفظ سرعت و دقت در مقایسه با الگوریتمِ توزیع شده تغییر یافته، افزایش مقیاس پذیری، انعطاف، در دسترس بودن و سایر مزایایی که از محیط grid به ارث می برد، بنحو بارزی نمایان می شود.