نام پژوهشگر: بهناز حیدری دهکردی

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1390
  بهناز حیدری دهکردی   ولی درهمی

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می باشد. لذا، تولید عمل هر عامل نه تنها به وضعیت محیط بلکه به عملی که عامل های دیگر انتخاب می کنند وابسته است. بنابراین با توجه به پیچیدگی طراحی از روش های یادگیری برای تنظیم پارامتر های انتخاب عمل عامل ها استفاده شده است. روش-هایی که برای حل این گونه مسائل ارائه شده اند، اکثراً مبتنی بر اشتراک دانش عامل ها از طریق ایجاد توابع ارزش-عمل برای همه ی عمل های ممکن خود عامل و سایر عامل ها، در هر حالت است. با افزایش تعداد عامل ها ابعاد مسئله به صورت نمایی گسترش پیدا می کند. که باعث افزایش زمان یادگیری و افزایش حافظه مورد نیاز برای حل مسئله است. اکثر روش های ارائه شده با توجه به مطالعات انجام شده برای محیط ها با حالت و عمل گسسته تدوین شده اند؛ با توجه به اینکه مسائل دنیای واقعی مانند هدایت ربات ها ماهیت پیوسته دارند، نیاز به الگوریتم های پیوسته کارا داریم. در این پایان نامه دو ایده جدید برای حل مسئله همکاری در محیط های چند عامله با فضای حالت پیوسته ارائه شده است. مقادیر تابع ارزش حالت-عمل و ارزش حالت هر کدام تالی یک سیستم فازی سوگنو مرتبه صفر جداگانه هستند در مراحل آموزش مقادیر تالی قواعد تنظیم می شوند. تعداد ورودی های سیستم های فازی برابر با ابعاد فضای حالت است. ایده اصلی از روش یادگیری سارسا فازی ارائه شده است. نتایج تجربی بر روی مسئله قرار گرفتن متقارن عامل ها حول یک میز چندضلعی که نمونه ساده ای از فرم-بندی است؛ حاکی از افزایش سرعت یادگیری و بهبود کارایی سیستم است.