نام پژوهشگر: لیلا حافظی

ِیکپارچه سازی و کاوش مجموعه داده های حجیم rfid
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390
  لیلا حافظی   محمد حسین سرایی

تکنولوژی شناسایی از طریق امواج رادیویی یا به صورت خلاصه تر تکنولوژی رادیو شناسه چندین سال است که به عنوان یکی از تکنولوژی های کارآمد و مفید مطرح شده است. این تکنولوژی در کاربردهای زیادی به کار گرفته شده و نتایج مطلوبی نیز داشته است از جمله در مدیریت زنجیره تأمین، مدیریت چمدان های فرودگاه ها، خرده فروشی ها، کنترل دسترسی، شناسایی حیوانات خانگی و بیماران آلزایمری. در ساده ترین سطح این تکنولوژی اجازه می دهد یک بارکد از راه دور و در خطی غیر مستقیم با استفاده از امواج رادیویی خوانده شود. بارکد ها در سیستم های رادیو شناسه معمولاً کدهای یونیکی هستند که به هر شیء اختصاص می یابند. این کد روی تراشه ای متصل به یک آنتن ذخیره می شود. به مجموعه این تراشه و آنتن تگ گفته می شود. از آنتن برای انتقال اطلاعات تراشه به تگ خوان استفاده می شود. تگ خوان امواج رادیویی را از تگ ها دریافت و آن ها را به اطلاعات قابل انتقال به کامپیوتر تبدیل می کند. این اطلاعات یا داده ها در کامپیوتر ذخیره و پردازش می شوند. داده هایی که به وسیله ی سیستم های رادیو شناسه تولید می شوند بسیار بزرگ و حجیم هستند. متدهای قدیمی در این مورد کارساز نیست و واضح است که بایست تکنیک های جدید و کارآمدی برای پردازش این داده های حجیم به کار گرفته شود. استفاده از تکنیک های داده کاوی برای مدل کردن ارتباطات و کشف الگوهای مخفی در داده های بزرگ مفید به نظر می رسد. یکپارچه سازی داده های تکنولوژی رادیو شناسه آن ها را به صورت ابعادی، در فرمت مشخصی مرتب می کند و در نتیجه کار تحلیل و آنالیز راحت تر می شود. لذا قبل از به کارگیری الگوریتم های داده کاوی ابتدا با استفاده از قوانین یکپارچه سازی، داده ها را به انباره داده تبدیل خواهیم کرد. در این پروژه هدف و تمرکز را بر روی مراحل پیش پردازش قرار داده و سعی شده با بهبود این مراحل گامی موثر در جهت بهبود داده کاوی برداشته شود. در این پروژه با ارائه مدل جدیدی از یکپارچه سازی داده ها که در آن علاوه بر فازهای موجود در مدل قدیمی یعنی فاز جمع آوری داده، فاز پاک سازی و فاز تبدیل داده، فاز دیگری به این مدل اضافه شد که آن فاز فشرده سازی است و برای فشرده سازی داده های کاربرد مورد نظر در این پروژه ساختار جدیدی ارائه شد که البته این ساختار برای تمامی کاربردهایی از rfid که یک سری عملیات ثابت و تکراری بر روی داده ها انجام می شوند نیز قابل اعمال است. با به کارگیری این ساختار، داده هایی که از یک خط تولید موتور خودرو به دست آمده بودند و تعداد آن ها 75,127,352 بود را تا 50/1 مقدار اولیه فشرده کردیم، که باعث بهبود انباره داده در هنگام اعمال الگوریتم های داده کاوی شد. علاوه بر فشرده سازی بسیار زیاد داده ها مزیت دیگر این ساختار این است که می توان با ذخیره روند فشرده سازی در یک جدول در دیتابیس، داده ها را به داده های اولیه قبل از فشرده سازی بازگرداند. هم چنین کار دیگری که بر روی انباره داده انجام شد این بود که از نرمال بودن جداول در انباره داده به منظور کاهش تعداد جداول صرف نظر شد، که آن چنان که نشان داده خواهد شد این کار نیز موجب بهبود زمان اجرای الگوریتم داده کاوی شد. با به کارگیری الگوریتم های داده کاوی بر روی انباره داده ساخته شده با استفاده از ساختار جدید میزان خطا را 16 درصد به دست آوردیم که نشاندهنده این است که روش ارائه شده روش قابل قبولی است.