نام پژوهشگر: نوشین نصری مهاجری

الگوریتم های یادگیری تقویتی فازی در محیط های نویزی با استفاده از سیستم های فازی بازه ای
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  نوشین نصری مهاجری   محمد باقر نقیبی سیستانی

یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. در تحقیقات بسیاری نشان داده شده است که سیستم های فازی نوع-2 در مقابل عدم قطعیت و نویز ورودی بهتر از سیستم فازی نوع -1 عمل می کنند. در این پژوهش به منظور بهبود مقاومت و عملکرد الگوریتم های یادگیری sarsa فازی و یادگیریq فازی ازسیستم های فازی نوع-2 بازه ای به عنوان تقریبگر تابع استفاده شده است. در این راستا به کارگیریچهار نوع متفاوت ازسیستم های فازی بازه ای پیشنهاد شده است. سیستم های فازی به کاررفته در واحد پردازشگر خروجی متفاوتند.بنابراین چهار الگوریتم بر مبنای یادگیریq و چهار الگوریتم برای یادگیری sarsa پیشنهاد شده است.الگوریتم های پیشنهادی برروی مسئله پارک کامیون پیاده سازی شده اند. مقدار خطا، سرعت پارک کامیون و سرعت همگرایی الگوریتم های پیشنهادی با نتایج حاصل از الگوریتم های یادگیری qفازی مرسوم و یادگیریsarsaفازی توسط آزمون های آماریمقایسه شده اند.با توجه بهنتایج آزمون های آماری به نظر می رسد که الگوریتم های پیشنهادیمقاومت بیشتری در مقابل نویز ورودی نسبت به الگوریتم های یادگیری تقویتی فازی نوع -1دارند و سیاست نهایی حاصل، عملکرد بهتری دارد زیرا کامیون در مدت زمان کوتاهتری در ناحیه مطلوب پارک می شود.اما در مورد سرعت همگرایی الگوریتم ها این بهبود در همه موارد مشاهده نمی شود.