یادگیری سارسا فازی با توزیع محلی پاداش

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
نویسنده سلمان سلطانیان
استاد راهنما محمد باقر نقیبی سیستانی
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1391

چکیده

یادگیری تقویتی به عنوان یکی از روش های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش های سنتی یادگیری تقویتی، فقط در محیط های حالت و عمل گسسته و کوچک کارامد هستند. علاوه براین وجود نویز در محیط و تاخیر در دریافت پاداش توسط عامل، کارایی این روشها را محدود می سازد. با این وجود در بسیاری از مسائل واقعی محیط ها آغشته به نویز و فضاهای حالت و عمل بسیار بزرگ و یا پیوسته هستند که این شرایط در عمل کارایی روشهای سنتی یادگیری تقویتی را بسیار کاهش می دهد و لزوم تعمیم و یا ابداع روشهای جدید را آشکار می سازد. برای تعمیم یادگیری تقویتی به محیط های پیوسته از روش های تقریب تابع استفاده می شود. بدین طریق می توان تجربیات را به حالات مجاور تعمیم داد. در میان روش های تقریب تابع، سیستم های فازی مورد توجه ویژه ای قرار گرفته اند. یادگیری-q-فازی، از متداولترین این روش ها می باشد. این روش ها بر پایه یادگیری-q سنتی بوده و می توانند در محیط های پیوسته یاد بگیرند. ارائه روش های یادگیری سریعتر، مقاومتر و در عین حال با همگرایی بهتر، همچنان یکی از دغدغه های اصلی پژوهشگران در حوزه یادگیری تقویتی می باشد. در این راستا در این پایان نامه، یک روش یادگیری جدید با نام یادگیری-سارسا-فازی با توزیع محلی پاداش پیشنهاد شده است. این روش یک روش یادگیری تقویتی بر-سیاست می باشد و علاوه بر توانایی یادگیری در محیط های پیوسته، عمل پیوسته نیز تولید می کند. در این پایان نامه به منظور استفاده بهتر از تجربیات، از شایستگی پیگردی نیز استفاده شده است. عملکرد این روش را در مسئله قایق از دو منظر سرعت یادگیری و کیفیت سیاست نهایی مورد ارزیابی قرار داده و در چندین سناریو مختلف با روش یادگیری-q-فازی مقایسه کرده ایم. سپس حساسیت این دو روش را نسبت به پارامتر یادگیری و تعداد قوانین فازی، بررسی کرده و با طرح یک آزمایش برون - سیاست نبودن روش یادگیری-q-فازی را نشان داده ایم. در نهایت امکان واگرایی روش یادگیری-q-فازی و همگرایی روش پیشنهادی در مسئله تعادل آونگ-ارابه، نشان داده شده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مدیریت پاداش جبران خدمت مدیران و کارکنان سازمان با یادگیری

این مقاله پراکندگی پاداش جبران خدمت کارکنان را قبل و بعد از کنترل پست‌های سلسله مراتبی سازمانی در نمونه‌های مورد بررسی مطالعه می‌کند. از اطلاعات مربوط به مدیران عالی و میانی و کارکنان به تعداد 694 نفر از 69 سازمان مختلف بازرگانی و صنعتی یه این موضوع پی برده شد که پراکندگی مذکور با آموزش و تجربه کاری قبل از شاغل شدن کاهش می‌یابد ولی با تصدی شغلی افزایش پیدا می‌کند که این یافته‌ها با نتایج تحقیقا...

متن کامل

کنترل ترافیک یک چهارراه راهنمایی رانندگی با استفاده از الگوریتم‌های یادگیری تقویتی (یادگیری-Q، سارسا و مسیرهای شایستگی)

یکیازمهمتریناهدافپژوهشدرحوزهحملو نقل،بهینهکردنجریانهای ترافیک است. امروزه با افزایش وسایل نقلیه به طور پیوسته،محدودیت در منابعارائهشدهتوسطزیرساختهایفعلیو ماهیت غیرخطی، پویا و تصادفی بودن جریان ترافیک، استفاده از...

متن کامل

مدیریت پاداش جبران خدمت مدیران و کارکنان سازمان با یادگیری

این مقاله پراکندگی پاداش جبران خدمت کارکنان را قبل و بعد از کنترل پست های سلسله مراتبی سازمانی در نمونه های مورد بررسی مطالعه می کند. از اطلاعات مربوط به مدیران عالی و میانی و کارکنان به تعداد 694 نفر از 69 سازمان مختلف بازرگانی و صنعتی یه این موضوع پی برده شد که پراکندگی مذکور با آموزش و تجربه کاری قبل از شاغل شدن کاهش می یابد ولی با تصدی شغلی افزایش پیدا می کند که این یافته ها با نتایج تحقیقا...

متن کامل

توزیع منصفانۀ پاداش مشترک میان واحدهای تصمیم‌گیری با استفاده از تحلیل پوششی داده‌ها

برای پیشرفت یک سازمان باید کارایی واحدهای تصمیم‌گیری آن به‌صورت مستمر ارزیابی، و هر واحد متناسب با کارایی خود تشویق شود. در غیر این صورت، واحدهای ناکارا در حاشیة امنیت قرار می‌گیرند و واحدهای کارا دلسرد می‌شوند. در این پژوهش، روشی برای توزیع منصفانة پاداش ثابت میان واحدهای یک سازمان ارائه می‌شود. این روش با استفاده از فن تحلیل پوششی داده‌ها سهم هر واحد را متناسب با کارایی آن تعیین می‌کند. برای...

متن کامل

برآورد بیزی بر اساس توزیع پسین امکانی با داده‌های فازی

This article has no abstract.

متن کامل

برآورد توزیع مکانی بارندگی با کمک تئوری مجموعه‌های فازی

با توجه به اهمیت بارندگی در مطالعات منابع آب و هیدرولوژی، ضعف در تعیین تغییرات مکانی بارندگی می‌تواند از عوامل مهم ایجاد خطا در نتیجه‌گیری مطالعات باشد. روشهای زمین آماری به دلیل در نظر گرفتن همبستگی مکانی داده‌ها معمولا دقت مناسبی را ارائه می‌نمایند. کافی نبودن داده‌ها کاربرد روشهای زمین آماری برای برآورد توزیع مکانی بارندگی را محدود می‌نماید. استفاده از داده‌های تولید شده (کارشناسی) که خود دا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

کلمات کلیدی

یادگیری تقویتی کنترل فازی توزیع پاداش یادگیری سارسا

میزبانی شده توسط پلتفرم ابری doprax.com