الاهه براتی

نام پژوهشگر: الاهه براتی

روش جدید و مقاوم پیش پردازش جهت بهبود تکنیک های داده کاوی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390
الاهه براتی محمد رضا احمدزاده

درسال های اخیر، توانایی تولید و جمع آوری داده افزایش چشم گیری داشته و حجم داده با سرعت زیادی رو به افزایش است. داده کاوی یا اکتشاف دانش از پایگاه های داده، به معنای فرآیند استخراج غیربدیهی اطلاعات ضمنی (غیرصریح) است که قبلاً برما پوشیده بوده و احتمالاً مورد استفاده و با ارزش خواهند بود. با وجود این، اغلب الگوریتم های داده کاوی نمی توانند به طور مستقیم روی داده های ذخیره شده در این پایگاه های داده کارکنند. اغلب روش های داده کاوی موجود گزاره ای بوده و الگوها را فقط از یک جدول ساده استخراج می کنند. درواقع، حضور همه داده ها در یک جدول ضروری است. بنابراین، برای استفاده از الگوریتم های داده کاوی یک مرحله پیش پردازش لازم است که متاسفانه منجر به از دست دادن بعضی از اطلاعات باارزش می شود. یکی از روش های کاوش پایگاه داده های رابطه ای برنامه نویسی منطق استقرائی است. در استفاده از برنامه نویسی منطق استقرائی لازم است داده ها به فرم عبارت های منطقی باشند و این امر به پیش پردازش زیادی احتیاج دارد. از روش های دیگر می توان به شبکه های بیزین، شبکه های عصبی، داده کاوی رابطه ای روی پایگاه داده رابطه ای و پایگاه داده رابطه ای به عنوان مجموعه ای از درخت ها اشاره کرد. در این تحقیق با بررسی روش های موجود، روش پایگاه داده رابطه ای به عنوان مجموعه ای از درخت ها انتخاب شد. با تبدیل پایگاه داده رابطه ای به درخت، امکان استفاده از الگوریتم های کاوش درخت برای استخراج الگوهای مختلف فراهم می شود. در این تحقیق با ترکیب دو طرح موجود در روش تبدیل پایگاه داده رابطه ای به درخت که مبتنی بر کلید و شیء بودند، ساختار جدیدی ارائه گردید. با استفاده از درخت های تولید شده در روش پیشنهادی و اعمال دو الگوریتم مختلف کاوش درخت، الگوهای تکراری تولید شده از ساختار مبتنی برکلید بیشتر و از ساختار مبتنی برشیء کمتر بودند. به علاوه، با اعمال تغییراتی در ساختار نمایش درخت توانستیم از این ساختار برای دسته بندی استفاده کنیم. در این تحقیق روش پیشنهادی روی یک مجموعه داده پزشکی به عنوان مطالعه موردی اعمال شد. یکی از چالش های استفاده از داده کاوی روی داده های پزشکی مسئله مقادیرگمشده است. بنابراین در این تحقیق پس از اعمال روش های مختلف مقابله با مقادیرگمشده، بهترین روش انتخاب شد و روی مجموعه داده اعمال گردید. سپس با استفاده از الگوریتم های کاوش درخت، الگوهای تکراری براساس مقادیر تائید متفاوت تولید گردیدند. از این الگوها برای استخراج قوانین مختلف استفاده شد. قوانین استخراج شده می توانند با فراهم کردن اطلاعات مفید، به پزشکان در رابطه با تشخیص بیماری کمک نمایند.

۱۵ صفحه ی اول