نام پژوهشگر: هانیه رازقی بروجردی

تولید خودکار امضاهای رفتاری برای تشخیص بدافزارها با استفاده از روش های یادگیری ماشین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده مهندسی برق و کامپیوتر 1391
  هانیه رازقی بروجردی   مهدی آبادی

امروزه بدافزارها یکی از اصلی ترین تهدیدات اینترنتی محسوب می شوند. با وجود انواع مختلف ابزارهای ضدبدافزار، روزانه هزاران میزبان در اینترنت با بدافزارهایی از قبیل ویروس ها، کرم های اینترنتی و اسب های تروی آلوده می شوند. بدافزارهای چندریخت به دلیل استفاده از انواع روش های مبهم سازی دارای الگوهای بایتی ثابتی نبوده و روش های موجود برای تشخیص مبتنی بر امضا در برابر این بدافزارها از کارآیی چندانی برخوردار نیستند. با این حال گونه های مختلف از یک بدافزار چندریخت از الگوهای رفتاری مشترکی پیروی می کنند که از آن ها می توان برای تولید امضاهای رفتاری استفاده کرد. در این پایان نامه، روشی به نام malhunter مبتنی بر خوشه بندی و همترازی دنباله ها برای تولید خودکار امضاهای رفتاری از بدافزارهای چندریخت پیشنهاد می شود. در روش پیشنهادی، ابتدا مجموعه ای از گونه های مختلف یک بدافزار چندریخت به عنوان ورودی دریافت می شود. سپس هر گونه در این مجموعه از نظر رفتاری تحلیل شده و متناظر با هر نخ در آن یک دنباله رفتاری تولید می شود. از آن جا که در هر بار اجرای یک برنامه ممکن است ترتیب اجرای نخ ها متفاوت باشد، بنابراین دنباله های رفتاری تولید شده با استفاده از یک الگوریتم خوشه بندی با شعاع ثابت به تعدادی خوشه تقسیم می شوند تا دنباله های رفتاری شبیه به هم شناسایی شوند. سپس با استفاده از یک الگوریتم همترازی دوگانه و متناظر با دنباله های رفتاری در هر خوشه یک الگوی همترازی تولید می شود. در نهایت، پس از تبدیل الگوهای همترازی به عبارات منظم و هرس کردن آن ها، برای هر خانواده بدافزار با استفاده از اتوماتاهای متناهی غیرقطعی مبتنی بر نمودارهای تصمیم دودویی مرتب یک امضای رفتاری چندگانه تولید می شود. از آن جایی که امضاهای تولید شده با عبارات منظم توسط اتوماتاهای متناهی بیان می شوند، می توانند به راحتی توسط سیستم های ضدبدافزار و تشخیص نفوذ مورد استفاده قرار گیرند. نتایج آزمایش های انجام شده بر روی یک مجموعه داده از بدافزارهای مختلف نشان می دهد که با استفاده از امضاهای رفتاری تولید شده توسط روش malhunter می توان انواع خانواده بدافزارها را با متوسط دقت 8/88%، متوسط بازخوانی 1/91% و متوسط نرخ مثبت کاذب 8/0% تشخیص داد.