نتایج جستجو برای: یادگیری تقویتی

تعداد نتایج: 20110  

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390

آونگ وارونه مسأله ای کلاسیک در زمینه تئوری کنترل و دینامیک است و به طور گسترده به-عنوان معیاری برای تست الگوریتم های کنترل به کار می رود. مشکل اصلی کنترل آونگ وارونه، کنترل آنلاین این سیستم تحت شرایط متغیر محیطی و امکان تطبیق پذیری هر چه بهتر این سیستم با محیط است. از این رو روش های یادگیری تقویتی گزینه مناسبی برای رفع این گونه چالش ها به حساب می آید. یکی از موانع اصلی دربرابر سرعت و دقّت یادگیر...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات 1392

در این پایان نامه از یادگیری تقویتی برای پیدا کردن یک سیاست مناسب جهت رفع مشکل موجود در بازی های امروزی که سطح سختی نامتناسب و عدم تطبیق پذیری بازی، با قابلیت های بازیکنان می باشد استفاده کرده-ایم. عامل یادگیرنده بازی که از روش یادگیری تطبیقی dyna بهره می برد با بکار بردن تابع عمل-ارزش و دریافت پاداش، شروع به درک محیط اطراف خود می کند و در ادامه، مبحث انتخاب و سازماندهی ویژگی ها، اعمال و پاداش ...

چکیده: آلودگی صوتی یکی از معضلات جدی جوامع صنعتی است. هر چند روش‌های سنتی متکی بر جذب صوت کاربردهای فراوانی دارند، اما این روش‌ها در فرکانس‌های پایین کارایی لازم را ندارند. برای غلبه بر این مشکل روش‌های فعال برای حذف نویز ارائه شده‌اند. در این تحقیق، ایده جدیدی مبتنی بر یادگیری تقویتی برای کاهش نویز صوتی به صورت فعال پیشنهاد گردیده است. بدین منظور، برای حذف نویز به صورت فعال برای یک سیگنال تناو...

ژورنال: کنترل 2012

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

پایان نامه :دانشگاه تربیت معلم - تهران - دانشکده فنی 1393

هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه ب...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392

امروزه سیستم‏های اطلاعاتی بسیار گسترده و پیچیده شده‏اند و نگهداری از آن مسئله ی پراهمیتی به شمار می رود که تحت عنوان تشخیص نفوذ قرار دارد. تشخیص سوء استفاده و ناهنجاری ، دو رویکرد گسترده برای مواجهه با این مسئله هستند. در این پژوهش یک سیستم وفق پذیر و ترکیبی از این رویکردهای تشخیص سوء استفاده و تشخیص ناهنجاری جهت بهره بردن از مزایای آنها ارائه شده است. برای نیل به این هدف در مرحله ی اول یک سی...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده فنی 1393

در این پایان نامه آشکارسازی صورت به کمک فیلترهای هارمانند بهبود یافته بررسی شده است. یکی از مشکلات سیستم های آشکارسازی صورت مبتنی بر ویژگی های هارمانند، استفاده از دو مقدار 1+ و 1- برای بخش های مستطیلی شکل ویژگی ها و تأکید بر مستطیلی بودن ویژگی هاست که انعطاف پذیری و کارایی این ویژگی ها را کاهش می دهد. در این پایان نامه سه روش جدید برای طراحی ویژگی های هارمانند ارائه شده است. در اولین روش، که م...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1386

برای بسیاری سیستم ها، توانایی یادگیری یک مزیت مهم و حتی در بعضی موارد یک نیاز است. از ابتدا، برای ایجاد توانایی یادگیری دو ایده کلی بسیار مورد توجه بوده است. ایده اول که به یادگیری با نظارت منجر می شود، استفاده از زوج های آموزشی ورودی-خروجی است. در این نوع یادگیری، سعی بر آموزش عملکرد درست به سیستم، با تعدادی مثال است که هر مثال شامل خروجی مورد انتظار از سیستم برای یک ورودی معین است. ایده دیگر ...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393

بازیهای دیفرانسیلی امروزه کاربردهای گسترده در زمینه های مختلف از جمله سیستمهای مخابرات بیسیم و شبکه، سیستمهای اقتصادی و راهبرد های دفاعی یافته اند. حل بازیهای دیفرانسیلی تکیه بر حل معادلات همیلتون-جاکوبی دارد. حل این معادلات در حالت غیرخطی بسیار مشکل بوده و ممکن است حتی در موارد ساده فاقد حل تحلیلی سرتاسری باشند. اکثر روش¬های ارائه شده برای حل این معادلات، روشهای تقریبی برون خطی هستند که در آنه...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رو...

نمودار تعداد نتایج جستجو در هر سال

با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید