مجید نیلی احمدآبادی

نام پژوهشگر: مجید نیلی احمدآبادی

طراحی و اجرای کنترل توجه در یک سیستم رانندگی بر اساس پیش بینی مشاهده

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - دانشکده برق 1390
زهرا قرایی مجید نیلی احمدآبادی

در این پژوهش هدف، مدلسازی توجه و به کارگیری آن در یادگیری حرکت یک ربات در یک مسیر مشخص می باشد که این رویکرد نهایتا منجر به متغیر شدن زمان نمونه برداری خواهد شد. از میان بستر های گوناگون، ایده کنترل توجه یک عامل هوشمند برگزیده شده است که در قالب یک مسئله یادگیری تقویتی در فضای پیوسته با به کارگیری الگوریتم یادگیری بیزی مطرح می شود. چالش اصلی عامل در طی این یادگیری تصمیم سازی بهینه با در نظر گرفتن محدودیت های زمانی و پردازشی از نقطه نظر دسترسی به منابع سنسوری و به روز رسانی فضای ادراکی جهت در اختیار داشتن درک بهتر از جهان پیرامون، می باشد. بنابراین برای ارضا نمودن محدودیت های موجود از یک سو و رسیدن به یک درک صحیح از موقعیت جهان از سوی دیگر تخمین فضای ادراکی به گونه ای هوشمندانه به کار گرفته شده است، تا عامل بر مبنای نیازها و محدودیت هایش بیاموزد در چه زمانی و چگونه از منابع سنسوری اش بهره بگیرد و چه زمانی با به کارگیری قابلیت های محاسباتی اش از طریق تخمین فضای ادراکی، به شناخت کافی از جهان پیرامون دست یابد. در این پژوهش حالت ها داده های قبلی خود را از دست نمی دهند و تصمیم گیری عامل براساس اطلاعاتی که از قبل پیش بینی شده است، انجام می گیرد. بنابراین باید حالت های گذشته و اثر آن ها برای تصمیم گیری عامل در لحظه ی کنونی نگهداری شوند. هم چنین به دلیل داشتن تعداد محدودی منبع برای گرفتن داده از محیط و هزینه بهره برداری از آن ها عامل در هر لحظه فقط می تواند توجه خود را به یک زیر مجموعه از منابع یا تصمیم گیر های محلی معطوف کند. در نتیجه تغییر جهت توجه باید به صورت بهینه انجام شود، هم چنین زمانی را که عامل برای گرفتن داده از یک منبع دانش سپری می کند ممکن است با سایر منابع برابر نباشد به عبارت دیگر عامل بر حسب نیاز ممکن است نمونه های داده بیشتری را از یک منبع دریافت کند که این امر منجر به متغیر بودن زمان نمونه برداری می شود. برای رسیدن به این اهداف از یک ماشین پیش بین استفاده شده است که در هر بار نمونه گیری ، حالت های بعدی هم پیش بینی می کند. در نتیجه هنگام توجه به یک منبع، عامل عکس العمل مناسب را بر اساس داده های فعلی و همچنین حالت های پیش بینی و نگهداری شده در نمونه گیری های قبلی انجام می دهد. این عکس العمل مناسب شامل تعیین مکان بعدی توجه نیز می شود. یعنی عامل باتوجه به داده های کنونی و داده های ذخیره شده در حافظه اش بهترین جهت برای تغییر مکان توجه و هم چنین بهترین فعل کنشی برای اثر گذاری روی محیط پیرامونش را انجام می دهد. برای تحقق این هدف تخمین پویا و غیر پویای فضای حالت در چارچوب یادگیری وظیفه پیشنهاد شده است. این چارچوب روی روبات e-puck در محیط شبیه سازی رباتیکی وبات آزموده شده است. نتایج شبیه سازی نشان می دهد که روبات می آموزد، چگونه با پرداخت هزینه کمتر که از طریق به کارگیری تخمین فضای حالت به جای به روز رسانی داده های سنسوری حاصل می شود، به یک خط مشی بهینه در تصمیم سازی به منظور یادگیری وظیفه، دست یابد. نتایج آزمایش ها کارایی این چارچوب را نشان می دهند.