ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی

پایان نامه
چکیده

یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می شود. هر قاعده سیستم فازی داری چند تالی کاندید می باشد. هدف از آموزش، یافتن مناسب ترین تالی برای هر قاعده فازی است. با توجه به ساختاری که برای سیستم فازی در نظر گرفته شده است، این روش در زمره روش های یادگیری تقویتی فازی نقاد-تنها قرار دارد. توابع پایه حالت-عمل با توجه به شدت آتش و عملهای کاندید قواعد تعریف می شوند. روش تازه سازی پارامترهای وزن مربوط به تالی قواعد با استفاده از این توابع پایه و بهره گیری از الگوریتم تکرار سیاست کمترین مربعات، ارائه می شود. نشان داده می شود که توابع پایه حالت–عمل تعریف شده شرایط قضیه روش تکرار سیاست کمترین مربعات را برآورده می نمایند. لذا روش ارائه شده هم دارای تحلیل ریاضی است که به این وسیله یک کران خطا برای آن تعریف می شود و هم کارایی مناسبی دارد. نتایج شبیه سازی، حاکی از سرعت یادگیری بالاتر و نیز کیفیت عملکرد بهترِ روش تکرار سیاست کمترین مربعات فازی نسبت به دو روش مرتبط یادگیری کیوی فازی و یادگیری سارسای فازی می باشد. همچنین مزیت دیگر روش ارائه شده نسبت روش های مذکور، عدم نیاز به تعیین نرخ یادگیری است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

متن کامل

ارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید

یکی از دستاورد‌های صنعت خودرو در سال‌های اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو می‌باشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...

متن کامل

توسعه کنترلر هوشمند چراغ‌های راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک

افزایش روزافزون تعداد خودروها و در پی آن ترافیک‌های سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را به‌خوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغ‌های راهنمایی بر پایه یادگیری تقو...

متن کامل

ارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته

در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل می‌گردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل می‌گردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...

متن کامل

ارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته

در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل می‌گردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل می‌گردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023