نام پژوهشگر: محمد جواد پورسلیمی جاغرق

بهبود عملکرد الگوریتم q-learning با استفاده از تابع مطلوبیت برای مدل سازی عامل محور بازار برق
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1389
  محمد جواد پورسلیمی جاغرق   حبیب رجبی مشهدی

یکی از ابزارهای متدوال برای مدل سازی رفتار بنگاه های اقتصادی در مواجهه با تغییرات ریسک بازار، توابع مطلوبیت می باشد. ویژگی های بازار برق، محیط اقتصادی دینامیک پیچیده ای را پدید آورده است که یادگیری عامل ها در این محیط از اهمیت ویژه ای برخوردار است. به منظور تطبیق الگوریتم ql با تغییرات بازار، به عنوان ایده اصلی، استفاده از مطلوبیت سود به جای سود به عنوان پسخور پاداش پیشنهاد شده است. به منظور پیاده سازی این تطبیق، پس از بررسی تأثیر تغییرات نقطه کار بازار بر استراتژی های عامل تصمیم گیرنده، با توجه به نقش قدرت بازار در تصمیم گیری عامل ها و تأثیر منحنی مطلوبیت در عملکرد الگوریتم ql، پارامترهای منحنی مطلوبیت بر حسب قدرت بازار ساختاری عامل تصمیم گیرنده محاسبه شده است. به این ترتیب، یک روش ql مبتنی بر مطلوبیت به منظور شبیه سازی رفتار استراتژیک فروشندگان توان در بازار برق محاسباتی توسعه داده شده است. ابتدا مسئله به صورت یک بازی تک نفره مدل می شود. در این مدل از یک توزیع نرمال برای قیمت تسویه بازار استفاده شده و با تغییر میانگین و واریانس این توزیع، تغییرات تأثیر تغییرات نقطه کار بازار بررسی می شود. سپس تأثیر منحنی مطلوبیت بر عملکرد الگوریتم ql در یک شبکه انتقال ساده بررسی شده و به عنوان یکی از مهمترین دستاوردهای این پایان نامه، اهمیت شیب منحنی های مطلوبیت در محیط های دینامیکی همچون بازار برق نشان داده می شود. بر اساس این دستاورد، الگوریتم پیشنهادی برای کنترل رفتار الگوریتم ql با استفاده از تابع مطلوبیت طراحی می شود. الگوریتم پیشنهادی برای یک فروشنده توان در یک سیستم قدرت چند ناحیه ای استفاده شده و نتایج نشان می دهد که از نظر سودآوری و توانایی تطبیق با تغییرات بازار بهتر از ql معمولی عمل کرده و با به کارگیری اطلاعاتی که فروشنده توان از محیط خود دارد، قدرت بازار را به صورت واقعی تر اعمال کرده است.