محمدعلی صالح‌نیا

نام پژوهشگر: محمدعلی صالح‌نیا

انتخاب ویژگی در داده های بزرگ به کمک قابلیت های cuda روی gpu

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شهید باهنر کرمان - دانشکده مهندسی 1393
محمدعلی صالح نیا وحید ستاری نائینی

انتخاب ویژگی یکی از مهمترین عملیات بر روی داده ها می باشد. به وسیله ی انتخاب ویژگی، ویژگی های کم¬ اهمیت حذف می شوند و باعث درک بهتر از داده ها می شود. داده های بزرگ به دلیل داشتن ابعاد زیاد، نیاز به زمان طولانی برای انجام محاسبات دارند. از طرفی روش های سنتی نمی¬توانند در زمان قابل قبولی داده های بزرگ را پردازش کنند. اخیراً، با پیشرفت تکنولوژی کارت گرافیک ها، استفاده از این ابزار در موازی سازی الگوریتم های تکاملی فراگیر شده است. یکی از الگوهای موازی سازی الگوریتم های تکاملی الگوی پایه-پیرو می باشد. در این نوشتار، دو نسخه ی موازی الگوریتم ژنتیک روی واحدهای پردازش گرافیکی با استفاده از برنامه نویسی cuda و مبتنی بر الگوی پایه-پیرو برای انتخاب ویژگی در داده های بزرگ پیاده سازی می شوند. محاسبه ی تابع برازندگی الگوریتم ژنتیک بر روی gpu پیاده سازی شده است. در هر دو نسخه ی پیاده سازی شده، به کمک وابستگی بین ویژگی های مجموعه ی داده، مجموعه ی داده به بخش هایی متناسب با تعداد نخ های درون بلاک کارت گرافیک تقسیم می شود. در نسخه ی اول، الگوریتم تنها یک دور اجرا می شود و در نسخه ی دوم، به دلیل وجود یک شرط توقف، الگوریتم می تواند بیش از یک بار اجرا شود. شرط توقف ارائه شده در نسخه ی دوم، برمبنای مقدار وابستگی بین ویژگی ها طراحی شده است. هدف از ارائه ی نسخه ی دوم، افزایش دقت الگوریتم موازی شده به وسیله ی تکرارهای مجدد می باشد. آزمایش ها بر روی 8 مجموعه ی داده با ابعاد متفاوت و بزرگ انجام شده است. نتایج با حرکت از مجموعه ها با ابعاد کمتر به سوی مجموعه های بزرگ، بین پیاده سازی سری و نسخه های موازی شده، سرعت قابل قبولی را گزارش داده اند. هر چند در روش¬های پیشنهادی سرعت بالاتر است؛ اما با توجه به اهمیت دقت در انتخاب ویژگی لازم است در کارهای آینده به بالا بردن دقت نیز توجه شود.

۱۵ صفحه ی اول