بهبود کیفیت داده ها در کامل بودن داده با استفاده از قوانین وابستگی

پایان نامه
چکیده

در دنیای امروزی، فعالیت های سازمان ها و شرکت ها بیش از پیش بر اساس داده ها و اطلاعات حاصل از تحلیل آن ها است. بنابراین، کیفیت داده ها مسئله ی بسیار مهمی است، امّا معمولاً در مسائل داده کاوی و کشف دانش از پایگاه داده ها نادیده گرفته می شود و یا توجه زیادی به آن نمی شود. یکی از مهم ترین فاکتورهای کیفیت داده ها کامل بودن داده ها و مسئله ی داده های گمشده است. تاکنون تکنیک ها و روش های بسیار زیادی برای مدیریت بهتر و انتساب مقادیر داده های گمشده پیشنهاد شده اند؛ امّا عیب اصلی چنین تکنیک هایی آن است که فقط به یک تکنیک متکی هستند و چند تکنیک را با هم ترکیب نمی کنند و این دلیلی بر دقت کمتر آن ها در پیش بینی و تعیین مقادیر داده های گمشده است. قانون وابستگی یکی از تکنیک های اصلی داده کاوی است و شاید بتوان آن را مهم ترین شکل از کشف و استخراج الگوهای موضعی در سیستم یادگیری بدون ناظر دانست. در این تحقیق، جهت افزایش دقت انتساب مقادیر گمشده، از رویکرد ترکیبی تکنیک کاوش قانون وابستگی با استفاده از مفهوم تطابق جزئی و مدل تغییر یافته ی تکنیک k-نزدیک ترین همسایگی استفاده می شود. دلیل اصلی استفاده از تکنیک k-نزدیک ترین همسایگی به عنوان مکمل ترکیبی قانون وابستگی برای انتساب مقادیر، مقاوم بودن آن نسبت به نویز و بنابراین قابلیت کارایی آن در مواقعی است که ارتباط بین مشاهدات مجموعه ی داده ها کم می باشد. از نتایج آزمایشگاهی بر روی مجموعه داده های واقعی بر می آید که دقت و کارایی رویکرد انتسابی ترکیبی ارائه شده در مقایسه با رویکردهایی که فقط به یک تکنیک متکی هستند، خیلی بهتر است.

منابع مشابه

بهبود روش فناوری های کلیدی با استفاده از گسترش عملکرد کیفیت، تحلیل پوششی داده ها و منطق فازی

روش فناوری‌های کلیدی یک رویکرد مفید برای ارزیابی و رتبه‌‏‏‏بندی‏ فناوری‌ها و یا مسیرهای تحقیقاتی است که به شکل گسترده‌‏‏‏‏‏‏‏‏ای‏ در کشورهای متعددی بکار رفته است. از آن جا که در این روش ارزیابی فناوری‌ها بر اساس قضاوت افراد متخصص صورت ‌می‏گیرد، دقت نتایج بسیار متاثر از نظرات خبرگان خواهد بود. بکارگیری روش گسترش عملکرد کیفیت فازی و استفاده از عبارات کلا‌می ‏بجای اعداد قطعی ‌می‏تواند نتایج روش مر...

متن کامل

بررسی بهبود استفاده از انرژی در تولید زردآلو با استفاده از تحلیل پوششی داده ها در شهرستان ابرکوه استان یزد

زردآلو یکی از محصولات باغی است که ایران بعد از ترکیه  بالاترین سطح تولید را دارد. انجام یک تحقیق در مورد مصرف انرژی و آنالیز اقتصادی آن در محصول زردآلو می‌تواند اطلاعات مفیدی برای بهبود کارایی انرژی فراهم نماید. در تحقیق حاضر با استفاده از تحلیل پوششی داده ها رابطه میان انرژی نهاده‌های مصرفی و عملکرد محصول زردآلو بررسی گردید. داده‌ها به شیوه مصاحبه رو در رو با 70 کشاورز شهرستان ابرکوه به روش نم...

متن کامل

کاوش قوانین وابستگی در جریانات سریع داده

کشف قوانین وابستگی (association rule) یکی از پرکاربردترین الگوهاییاست که توسط داده کاوی استخراج می گردند و به معنای یافتن همه قوانین موجود در مشاهده اقلام مجمو عه های داده ای است.مهمترین فاز یافتن قوانین وابستگی، یافتن الگوهای پرتکرار می باشد. کشف قوانین وابستگی در جریان سریع داده ها با مشکلاتی روبروست. با توجه به ماهیت جریان داده ای، امکان ذخیره سازی داده های ورودی و مرور دوباره آنها وجود ندا...

15 صفحه اول

ارائه روشی نوین برای بهبود دقت بازسازی داده حالت پلاریمتری کامل از روی داده حالت پلاریمتری دو دایروی

علیرغم این که داده حالت پلاریمتری کامل اطلاعات بسیار خوبی از اهداف زمینی فراهم می آورد، مشکلاتی از قبیل کافی نبودن عرض پوشش‌دهی برای اهداف نظارتی و بالا بودن توان ارسالی، حجم داده، هزینه و پیچیدگی سیستم، پژوهشگران این حوزه را به سمت استفاده از حالت پلاریمتری فشرده سوق داد. در این حالت با سعی بر اینکه اطلاعات دریافتی تا حد ممکن به اطلاعات حالت پلاریمتری کامل نزدیک باشد، مشکلات حالت پلاریمتری کام...

متن کامل

استفاده از نمایش هندسی داده ها در تحلیل اطلاعات

نگرش آمار شناسان به تحلیل داده ها، طی سی سال گذشته، دستخوش یک انقلاب شده است. این انقلاب را به درستی مرهون نشر اثر تاریخی جان توکی تحت عنوان تحلیل اکتشافی داده ها می دانند. هسته اولیه این انقلاب در مجموعه مقالات نوشته شده به وسیله توکی، همفکران و دانشجویان او شکل گرفت. این انقلاب با مقاله سال 1962 توکی تحت عنوان آینده تحلیل داده ها به جهت گیری روشنی دست یافت. محتوای این مقاله، به نیاز مشخص بسیا...

متن کامل

درجة وابستگی تجاری کشورهای شرق آسیا با استفاده از جدول داده ـ ستاندة بین‌المللی آسیایی

افزایش رشد اقتصادی با تکیه بر توسعة صادرات رویکرد کشورهای شرق آسیا در چند دهة اخیر بوده که تنظیم و استخراج جدول داده ـ ستاندة بین‌‌المللی آسیایی تبلور عینی این رویکرد است. مطالعة دقیق‌تر سیاست‌های اتخاذشده ازسوی این کشورها و هم‌چنین مطالعة درجة وابستگی تجاری این کشورها به یک‌دیگر و مقایسة نقش ژاپن و چین در منطقه برای ایران، ‌که در برخی سال‌ها تا 35 درصد از صادرات خود را به این دو کشور داشته، حا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023