سید محمدرضا احمدپناهی

نام پژوهشگر: سید محمدرضا احمدپناهی

یادگیری تقویتی بر مبنای دوپامین به عنوان سیگنال مالتی پلکس شده یادگیری در رفتار مبتنی بر پاداش

پایان نامه دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - پژوهشکده برق و کامپیوتر 1393
سید محمدرضا احمدپناهی علی اکبر پویان

پیشرفت های اخیر سعی در جایگزینی روبات به جای انسان کرده است. روبات ها برای جایگزینی نیاز به یادگیری دارند. با تکامل علوم جدید هر روز روبات ها، برای رسیدن به هدف مورد نظر، بدون نیاز به نظارت انسان پیشرفت می کنند. تاکنون تحقیقات زیادی در مورد یادگیری با نظارت و یا بر اساس مدل انجام شده است. پیدا کردن راهی برای رسیدن به کوتاه ترین مسیر موجود از مکان فعلی تا مقصد در محیط ناشناخته مشکل بزرگی در راه یادگیری تقویتی می باشد. ما این اقدام را در این پایان نامه انجام داده ایم. هدف ما در این رساله، یافتن کوتاه ترین مسیر تا مقصد و در عین حال با ارزش ترین مسیر در محیط ناشناخته و در n بعد می باشد. یافتن کوتاه ترین مسیر به معنی وجود یک راه فیزیکی تا هدف نیست. اساس کار، پیاده سازی بر اساس مدل آزاد است تا قابل اجرا در هر فضایی باشد. برای رسیدن به هدف یادگیری، الگوریتم کلونی مورچگان را با یادگیری تقویتی ترکیب کردیم و ماتریس فرومون را ساختیم. با الگو برداری از ترشح دوپامین از کیسه ی کوچکی بنام وزیکول در مغز انسان، پاداش تاخیری را پیاده سازی کردیم و باعث ایجاد همگرایی کران پیش بینی پاداش به سمت پاداش واقعی شدیم.