نام پژوهشگر: محمد باقر نقیبی سیستانی

الگوریتم یادگیری تقویتی در بهینه سازی شیمی درمانی به همراه کاربرد آن در کنترل بهینه
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1389
  محسن رضازاده   محمد باقر نقیبی سیستانی

تشخیص و درمان سرطان در سال های اخیر موضوع بحث بسیاری از محافل علمی بوده است. در میان روش های درمان سرطان، شیمی درمانی بیشتر مورد استفاده قرار می گیرد زیرا هم به عنوان درمان کمکی یا مکمل همراه با روش های درمانی دیگر به کار می رود و هم به این دلیل که، بسیاری از سرطان ها پیش از تشخیص، تشکیل کانون های متاستاتیک داده اند و برای تومورهایی که متاستاز می دهند، شیمی درمانی بهترین روش درمان است. در این مقاله یک استراتژی کنترل بهینه برای سیستم های غیر خطی در جهت کاربرد در شیمی درمانی سرطان ارائه می شود.مدل رشد تومور بوسیله دستگاه معادلات که بر اساس رقابت بین سلول های نرمال و سرطانی است قابل بیان است. تاثیر سیستم ایمنی در حضور تومور معمولا در مدل لحاظ می شود. روش کنترل بهینه در جهت از بین بردن سلول سرطانی مادامیکه مقدار داروی استفاده شده در مدل شبیه سازی شده نیز مینیمم شود به کار می رود. الگوریتم یادگیری تقویتی برای بنا کردن استراتژی کنترل بهینه در سیستم های غیر خطی پیشنهاد داده شده است که روشی مناسب برای حل این مساله می باشد. نتایج شبیه سازی شده نشان می دهد که به کمک روش پیشنهادی سلول های سرطانی در مدت کوتاهتری با استفاده از مقدار کمی دارو قابل نابود شدن است و همچنین نشان می دهد که روشی توانا در مدل های مختلف است. روش پیشنهادی در این مقاله روشی جامع است و بنابراین می تواند در مسائل دارویی مورد استفاده قرار گیرد. در ادامه در این رساله سعی شده است که برنامه دارویی متفاوتی برای مدل مورد نظر ارائه شود که از مزیت های روش پیشنهادی می باشد که در مقایسه با سایر روش های کلاسیک با تغییر جزئی در برنامه می توان به این منظور دست یافت. نتایج نشان می دهد استفاده از شیوه درمان پیوسته می تواند بسیار موثر باشد بدین معنی که درمان، با حداکثر دوز داروی مجاز برای بازه زمانی کوتاهی از شروع درمان آغاز می شود، سپس دوز دارو به سرعت به حداقل میزان خود کاهش می یابد که این مقدار دوز کم دارو مانع از رشد سلول سرطانی در پایان دوره درمان می شود. در این برنامه دارویی سلول های ایمنی و نرمال از نوسانات کمتری برخوردار هستند که بیانگر حال عمومی بیمار می باشد.البته نتایج نشان می دهد که از معایب برنامه دارویی پیوسته زمان بیشتر درمان می باشد

ردگیری هدف متحرک مانوردار در شبکه های حسگر بیسیم با استفاده از فیلتر imm و روش مکان یابی مثلثی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1389
  امین حسنی   محمد باقر نقیبی سیستانی

ردیابی یک شیئ در دنیای فیزیکی شامل تشخیص، نظارت و دنبال کردن موقعیت مکانی آن با استفاده از مفاهیم صوت، لرزش، الکترومغناطیس و ... است. درچند سال اخیرزیرمجموعه جدیدی از شبکه ها به نام شبکه های حسگر بی سیم پدید آمده است که یکی از مهمترین و بحث برانگیز ترین کاربردهای آن ، ردیابی هدف متحرک در دنیای فیزیکی می باشد. ردیابی یک شیء در شبکه های حسگر بیسیم، عبارت است از تخمین حالت هدف با استفاده از مشاهدات آغشته به نویزی که توسط همه یا بخشی از حسگرهای موجود در شبکه گزارش می شوند. هسته مرکزی یک سیستم ردیابی شامل 2 قسمت اصلی است: یکی واحد تامین کننده اطلاعات ودیگری واحد تخمین حالات مدل حرکتی متحرک. در واحد تامین اطلاعات در این پایان نامه از شبکه های حسگر بیسیم با تکنیک مثلثی برای مکان یابی متحرک استفاده شده که خود شامل گروه بندی دینامیکی حسگرها می باشد. اغلب در بخش تخمین حالات، از فیلتر کالمن معمولی و فیلتر کالمن توسعه یافته استفاده می شود. ولی در مواردی که متحرک با مانورهای شدید حرکت می کند، این دو فیلتر عملکرد مطلوبی نداشته و معمولا منجربه واگرایی می شوند. در این پایان نامه در ابتدا انواع مدل های قابل اسفاده در فیلتر عنوان شده و سپس از فیلتر چند مدلی تعاملی به عنوان سیستم تخمین حالات در شرایط هدف مانوردار استفاده شده که توانایی این روش در تخمین مکان و سرعت متحرک توسط محیط شبیه سازی شده نشان داده خواهد شد. در نهایت نیز جهت بهبود بخشیدن به دقت در فرآیند ردیابی هدف با فیلتر چند مدلی تعاملی دارای تخمین گر ورودی، از منطق فازی برای تغییر تطبیقی ماتریس کوواریانس نویز سیستم استفاده شده است.

افزایش راندمان بویلر نیروگاه حرارتی ذوب آهن اصفهان با تنظیم میزان هوای اضافی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  مهدی پارسا   محمد باقر نقیبی سیستانی

امروزه با توجه به افزایش ارزش انرژی در کشور، یکی از دغدغه های جدی در صنایع نیروگاه حرارتی افزایش راندمان بویلرها به کمک بهینه سازی بازده احتراق می باشد. مسئله بهینه سازی کارکرد سیستم احتراق در یک نیروگاه حرارتی ایجاد یک توازن بین افزایش بازده احتراق و مینیمم سازی انتشار گازهای نامطلوب می باشد. فرایند احتراق در سیستم بویلر یک فرایند چند ورودی چند خروجی، متغیر با زمان و به شدت غیرخطی می باشد. به همین خاطر تنظیم پارامترهای تنظیم پذیر اصلی آن با استفاده از روشهای کلاسیک مبتنی بر مدلسازی مشکل می باشد. از آنجایی که سیستم های کنترل توزیع شده به طور گسترده در نیروگاه ها مورد استفاده قرار می گیرد، داده های مربوط به پارامترهای بویلر جمع آوری و ثبت می شوند به همین خاطر استفاده از تکنیک های داده کاوی یک روش بسیار موثر به منظور تنظیم بهینه پارامترهای احتراق می باشد. با توجه به اینکه داده های موجود، خروجی سنسورهای نصب شده روی سیستم است اغلب، داده ها دارای دقت مناسب نبوده و در بعضی مواقع نویز نیز روی آنها تاثیر می گذارد، به همین دلیل استفاده از مجموعه های فازی در تحلیل این داده ها بسیار مفید می باشد. در این پایان نامه یک روش مبتنی بر تکنیک های داده کاوی فازی به منظور افزایش راندمان بویلر ارائه شده و سپس کارایی آن با استفاده از یک تست مجازی روی سیستم بویلر نیروگاه حرارتی ذوب آهن اصفهان مورد ارزیابی قرار می گیرد.

کنترل سطح گلوکز خون در بیماران دیابتی نوع 1 با استفاده از الگوریتم q- فازی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  زهره اصغری   محمد باقر نقیبی سیستانی

روش ترکیبی q-فازی به عنوان یک روش جدید در پایدار سازی غلظت قند خون در این تحقیق مورد استفاده قرار گرفته است. ایده ی اصلی بکارگیری این روش افزایش رباستنس کنترلر طراحی شده در برابر عدم قطعیت های موجود در پارامترهای مدل می باشد. این روش از ترکیب دو روش یادگیری تقویتی و سیستم های فازی که بر روی فضاهای پیوسته تعریف می شوند، به منظور پایدار سازی غلظت قند خون در بازه ی نرمال استفاده می کند. کنترلر طراحی شده از عملکرد خوبی در دفع اغتشاشات وارد به سیستم برخوردار بوده و در برابر تغییرات دامنه ی اغتشاش مقاوم می باشد. همچنین رباستنس کنترلر پیشنهادی بر روی مجموعه ای از بیماران مختلف با پارامترهای متفاوت بررسی شده و رباستنس تقریبی 90% نتیجه گرفته شده است. نتایج بدست آمده نشان می دهند کنترلر پیشنهادی امکان کنترل دقیق تر سطح گلوکز خون را نسبت به کنترلر فازی، کنترلر نرم بینهایت و روش یادگیری q علیرغم وجود عدم قطعیت ها ی پارامتری مدل فراهم می کند. علاوه بر این، به منظور ارزیابی عملکرد کنترلر، نتایج بدست آمده از این روش با نتایج مربوط به کنترلر فازی، کنترلر نرم بینهایت و روش یادگیری q از نظر معیارهای زمان نشست ،اورشت ، مجموع مربعات خطا و رباستنس در بابر تغییرات پارامتری مدل بررسی شده است. نتایج شبیه سازی نشان دهنده ی عملکرد خوب کنترلر پیشنهادی در پایدارسازی سطح گلوکز خون بیمار دیابتی نوع 1 با شرایط اولیه حاد در مدت زمان مناسب می باشد.

تقریب کسری موتور dc و کنترل آن با استفاده از کنترلرهای مرتبه کسری
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  علی اصغر متقی پور   محمد باقر نقیبی سیستانی

در این پایان نامه، تقریب کسری موتور dc و کنترل آن با استفاده از کنترلر های مرتبه کسری صورت گرفته است. یکی از سیستم های پرکاربرد در صنعت، سیستم سروو مکانیسم متشکل از سروو موتور است. سرو موتورها به طور کلی به سه دسته تقسیم می شوند: سرو موتورهای ac بر اساس طراحی موتورهای القائی، سرو موتورهای dc بر اساس طراحی موتورهای dc و سرو موتورهای ac براشلس (brushless) بر اساس موتورهای سنکرون بدون ذغال. سیستم مورد مطالعه ما در این پایان نامه از نوع دوم است. موتور dc یک محرک قدرت است که انرژی الکتریکی جریان مستقیم را به انرژی مکانیکی چرخشی تبدیل می کند و یکی از قدیمی ترین موتورهایی است که امروزه در صنعت، قابل دسترس است. از نقاط قوت روش ارائه شده برای تقریب و کنترل این سیستم، می توان به کاهش حجم محاسبات، سادگی روش و این که جستجوی ما به منظور پیداکردن تابع تبدیل مورد نظر برای تقریب، کامل تر و بهتر بوده و این روش نسبت به دیگر روش ها، مناسب تر و تطبیقی است و یک سطح از جستجوی متمرکز با فواصل خاص است.

قیمت دهی در بازار برق به کمک الگوریتم q-learning تطبیقی و قدرت بازار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - پژوهشکده فنی و مهندسی 1391
  رضا کاکولاریمی   محمد باقر نقیبی سیستانی

در طی دو- سه دهه ی اخیر صنعت برق در سرتاسر جهان، گذار از ساختارهای یک پارچه ی عمودی را به سمت بازارهای آزاد رقابتی آغاز کرده است. با وجود حرکت به سمت فضای رقابتی، متأسفانه این گذار به صورت کامل صورت نگرفته است، و بازارهایی با رقابت ناکامل ایجاد شده اند. در بازاری با رقابت ناکامل، تولید کننده گان درمی یابند که اگر قیمتی بالاتر از هزینه ی حدی شان پیشنهاد دهند ممکن است سود بیشتری به دست آورند. بنابراین نیاز به ابزارهای مناسب برای قیمت دهی بیش از پیش احساس می شود. ویژگی هایی نظیر اطلاعات نامتقارن، رقابت ناکامل، تعامل استراتژیک، یادگیری تجمعی، و امکان تعادل چندگانه سبب پیچیده شدن بازار برق شده و استفاده از روش های سنتی را برای مدل سازی بازار برق با مشکل مواجه کرده است. اقتصاد محاسباتی مبتنی بر عامل یکی از روش های قدرتمند و جذابی است که به خوبی می تواند با این پیچیده گی ها مواجه شود. در میان روش های مدل سازی مبتنی بر عامل، یادگیری تقویتی به دلیل ذات عامل محور بودن خود برای مدل سازی مبتنی بر عامل سیستم های پیچیده از جمله بازار برق بسیار توانمند می باشد؛ و در بین الگوریتم های یادگیری تقویتی، الگوریتم یادگیری-q از آن جا که برای تصمیم گیری به مدل سیستم نیاز ندارد، برای مدل سازی رفتار بازیگران بازار بسیار مناسب است. اما این الگوریتم همواره خود را در برابر چالشی بزرگ می بیند، و آن چالش دوراهی بین کاوش و بهره برداری می باشد. بازار برق به دلیل ذات چندعامله بودن خود از دید عامل یادگیری تقویتی محیطی ناایستا می باشد. در یک محیط ناایستا نیاز به کاوش همواره وجود دارد. اما گاهی اتفاقاتی در بازار رخ می دهد که بر روی میزان ناایستایی بازار از دید برخی از عامل ها و درنتیجه بر میزان کاوش اشان تأثیر می گذارد و آن اتفاقی ا ست که منجر می شود عاملی از قدرت بازار قابل توجهی برخوردار شود. در این پایان نامه رویکردی پیشنهاد می دهیم که نرخ کاوش الگوریتم یادگیری-q را هم زمان با تغییرات میزان ناایستا بودن محیط به علت تغییرات قدرت بازار تنظیم می کند. روش پیشنهادی در یک بازار برق حوضچه ی توان شبیه سازی شده است و عملکرد آن را با روش های یادگیری-q با نرخ کاوش ثابت، یادگیری-q با نرخ کاوش کاهشی، و با یادگیری-q فازی مقایسه کرده ایم. نتایج شبیه سازی نشان می دهند که روش پیشنهادی نسبت به دیگر روش های نامبرده، به سودآوری بیشتری منجر می شود.

یادگیری سارسا فازی با توزیع محلی پاداش
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  سلمان سلطانیان   محمد باقر نقیبی سیستانی

یادگیری تقویتی به عنوان یکی از روش های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش های سنتی یادگیری تقویتی، فقط در محیط های حالت و عمل گسسته و کوچک کارامد هستند. علاوه براین وجود نویز در محیط و تاخیر در دریافت پاداش توسط عامل، کارایی این روشها را محدود می سازد. با این وجود در بسیاری از مسائل واقعی محیط ها آغشته به نویز و فضاهای حالت و عمل بسیار بزرگ و یا پیوسته هستند که این شرایط در عمل کارایی روشهای سنتی یادگیری تقویتی را بسیار کاهش می دهد و لزوم تعمیم و یا ابداع روشهای جدید را آشکار می سازد. برای تعمیم یادگیری تقویتی به محیط های پیوسته از روش های تقریب تابع استفاده می شود. بدین طریق می توان تجربیات را به حالات مجاور تعمیم داد. در میان روش های تقریب تابع، سیستم های فازی مورد توجه ویژه ای قرار گرفته اند. یادگیری-q-فازی، از متداولترین این روش ها می باشد. این روش ها بر پایه یادگیری-q سنتی بوده و می توانند در محیط های پیوسته یاد بگیرند. ارائه روش های یادگیری سریعتر، مقاومتر و در عین حال با همگرایی بهتر، همچنان یکی از دغدغه های اصلی پژوهشگران در حوزه یادگیری تقویتی می باشد. در این راستا در این پایان نامه، یک روش یادگیری جدید با نام یادگیری-سارسا-فازی با توزیع محلی پاداش پیشنهاد شده است. این روش یک روش یادگیری تقویتی بر-سیاست می باشد و علاوه بر توانایی یادگیری در محیط های پیوسته، عمل پیوسته نیز تولید می کند. در این پایان نامه به منظور استفاده بهتر از تجربیات، از شایستگی پیگردی نیز استفاده شده است. عملکرد این روش را در مسئله قایق از دو منظر سرعت یادگیری و کیفیت سیاست نهایی مورد ارزیابی قرار داده و در چندین سناریو مختلف با روش یادگیری-q-فازی مقایسه کرده ایم. سپس حساسیت این دو روش را نسبت به پارامتر یادگیری و تعداد قوانین فازی، بررسی کرده و با طرح یک آزمایش برون - سیاست نبودن روش یادگیری-q-فازی را نشان داده ایم. در نهایت امکان واگرایی روش یادگیری-q-فازی و همگرایی روش پیشنهادی در مسئله تعادل آونگ-ارابه، نشان داده شده است.

تعقیب نقطه حداکثر توان و تخمین سرعت باد در توربین های بادی با بهره گیری از کنترلر فازی pi تطبیقی مستقیم
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  ساناز سبزواری   محمد باقر نقیبی سیستانی

در طی دهه ی گذشته، سیستم های انرژی بادی توجه زیادی را به عنوان یکی از موثر ترین منابع تجدید پذیر انرژی با دلایلی چون کاهش ذخایر، هزینه های بالا، و تاثیرات محیطی منابع انرژی سنتی به خود جلب کرده اند. امروزه، یکی از مسائل چالش برانگیز طراحی کنترلر هایی با عملکرد و کارایی مطلوب برای سیستم های توربین بادی سرعت متغیر می باشد. در این پایان نامه، تکنیک تعقیب نقطه دریافت حداکثر توان با رویکرد کنترل نسبت سرعت نوک برای توربین های بادی مقیاس کوچک ارائه شده است. به علاوه، به منظور سهولت پیاده سازی عملی، حذف سنسور های گران قیمت اندازه گیری سرعت باد و دقت مطلوب، از روشی نوین برای پیش بینی سرعت باد کوتاه مدت استفاده شده است. این روش شامل الگوریتم ترکیبی شبکه عصبی مصنوعی و بهینه سازی ازدحام ذرات می باشد که در آن وزن های شبکه بوسیله ی الگوریتم بهینه سازی ازدحام ذرات به روز رسانی می شوند. در این پایا ن نامه پیشنهاد شده است در خصوص بهینه سازی توان (ناحیه دوم کاری)، از کنترلر فازی pi تطبیقی مستقیم برای تعقیب نقطه دریافت حداکثر توان توربین بادی متصل به ژنراتور سنکرون مغناطیس دائم استفاده شود. کنترلر پیشنهادی با بهره گیری از قاعده تعدیل و تنظیم پارامتر های کنترل کننده فازی، توانسته است با وجود تغییرات سرعت باد به عملکرد مطلوب و بهینه با موفقیت دست یابد، به علاوه نسبت به تغییرات پارامتر های سیستم مقاوم باشد. همچنین، از ویژگی های دیگر روش و مدل پیشنهاد شده، کاهش ریپل نوسانات موجود در توان تحویلی به بار، ضریب توان توربین بادی (شاخص عملکردی حالت تعقیب نقطه حداکثر توان) و خروجی کنترلر (سیکل اشتغال) تحت شرایط تغییرات آزاد موجود در سرعت باد در مقایسه با کنترلر کلاسیک می باشد. برای نشان دادن عملکرد و تحلیل سیستماتیک روش پیشنهادی، توربین بادی متصل به بار در محیط matlab/simulink شبیه سازی شده است.

الگوریتم های یادگیری تقویتی فازی در محیط های نویزی با استفاده از سیستم های فازی بازه ای
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  نوشین نصری مهاجری   محمد باقر نقیبی سیستانی

یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. در تحقیقات بسیاری نشان داده شده است که سیستم های فازی نوع-2 در مقابل عدم قطعیت و نویز ورودی بهتر از سیستم فازی نوع -1 عمل می کنند. در این پژوهش به منظور بهبود مقاومت و عملکرد الگوریتم های یادگیری sarsa فازی و یادگیریq فازی ازسیستم های فازی نوع-2 بازه ای به عنوان تقریبگر تابع استفاده شده است. در این راستا به کارگیریچهار نوع متفاوت ازسیستم های فازی بازه ای پیشنهاد شده است. سیستم های فازی به کاررفته در واحد پردازشگر خروجی متفاوتند.بنابراین چهار الگوریتم بر مبنای یادگیریq و چهار الگوریتم برای یادگیری sarsa پیشنهاد شده است.الگوریتم های پیشنهادی برروی مسئله پارک کامیون پیاده سازی شده اند. مقدار خطا، سرعت پارک کامیون و سرعت همگرایی الگوریتم های پیشنهادی با نتایج حاصل از الگوریتم های یادگیری qفازی مرسوم و یادگیریsarsaفازی توسط آزمون های آماریمقایسه شده اند.با توجه بهنتایج آزمون های آماری به نظر می رسد که الگوریتم های پیشنهادیمقاومت بیشتری در مقابل نویز ورودی نسبت به الگوریتم های یادگیری تقویتی فازی نوع -1دارند و سیاست نهایی حاصل، عملکرد بهتری دارد زیرا کامیون در مدت زمان کوتاهتری در ناحیه مطلوب پارک می شود.اما در مورد سرعت همگرایی الگوریتم ها این بهبود در همه موارد مشاهده نمی شود.

حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  بهاره کیومرثی خمارتاش   علی کریم پور

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رویکردی متفاوت برای حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با استفاده از یادگیری تقویتی ارائه شده است. ابتدا با استفاده از دینامیک سیستم و دینامیک ورودی مرجع، یک سیستم دینامیکی افزوده تعریف شده است. بر اساس سیستم افزوده معرفی شده، یک تابعی معیار با ضریب تنزیل برای مسئله کنترل بهینه ردیابی معرفی شده است. نشان داده شده است که برای یافتن پاسخ بهینه، در فرمول بندی ارائه شده تنها نیاز به حل یک معادله جبری ریکاتی افزوده می باشد و پاسخ کنترلی حاصل از حل این معادله شامل هر دو قسمت پیشرو و پسخور ورودی کنترلی می باشد. بنابراین می توان از روش های یادگیری تقویتی برای حل مسئله پیش رو برای سیستم های دارای عدم قطعیت بهره گرفت. با توجه با این خصوصیت، ابتدا مسئله ردیابی بهینه به صورت بر خط برای سیستم های با دینامیک نیمه معین با استفاده از شبکه عصبی فعال-نقاد حل شده است. سپس مسئله ردیابی بهینه به کمک الگوریتم q-learning به صورت بر خط برای سیستم ها با دینامیک کاملا نامعین حل شده است. در نهایت، از آنجائی که در عمل حالات سیسستم ممکن است در دسترس نباشند، مسئله ردیابی به صورت بر خط برای سیستم های با دینامیک کاملا ناشناخته و بدون نیاز به اندازه گیری حالات سیستم تنها با اندازه گیری داده های ورودی و خروجی و ورودی مرجع حل شده است.

تعیین دوز دارو در درمان بیماری لوسمی میلوئیدی مزمن با استفاده از الگوریتم یادگیری تقویتی فازی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  علی طیرانی   محمد باقر نقیبی سیستانی

تعیین دوز دارو در درمان سرطان از نظر میزان هزینه و نیز صدمات جانبی وارد شده بر بیماران بسیار حائز اهمیت است و لذا پزشکان در تعیین برنامه دارویی روزانه بیماران، سعی می کنند میزان داروی تجویز شده در یک محدوده مشخص باشد و در ضمن مجموع داروی تزریق شده به بیماران در یک دوره زمانی نیز تا حد ممکن کاهش یابد. در این تحقیق الگوریتم یادگیری تقویتی فازی به عنوان یک روش جدید در تعیین دوز دارو جهت درمان یکی از انواع سرطان خون به نام لوسمی میلوئیدی مزمن مورد استفاده قرار گرفته است. این روش ازترکیب دو روش یادگیری تقویتی و سیستم های فازی که بر روی فضاهای پیوسته تعریف می شوند، به منظور درمان این بیماری در بازه زمانی 250 روزه بدست آمده است. ایده ی اصلی بکارگیری این روش افزایش رباستنس کنترلر طراحی شده در برابر عدم قطعیت های موجود در پارامتر های مدل می-باشد. کنترلر پیشنهادی بر روی 3 بیمار فرضی با شرایط متفاوت بیماری و پارامتر های مختلف اعمال گردیده است. نتایج بدست آمده نشان می دهد که این روش بر خلاف روش های موجود که در این زمینه صورت گرفته است از قوام بسیار بالایی برخوردار بوده است و به خوبی توانسته است به درمان این 3 بیمار در طول دوره 250 روزه بپردازد.

پیشنهاد استراتژی قیمت دهی فروشندگان انرژی بازار برق با کمک الگوریتم های یادگیری تقویتی مبتنی بر تبرید تدریجی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  غزاله محسنی راد   محمد باقر نقیبی سیستانی

در این پایان نامه مسئله استراتژی قیمت¬دهی تولیدکنندگان انرژی در بازار یکنواخت برق برای رسیدن به حداکثر سود بررسی شده است. فروشندگان انرژی پیشنهادات قیمت خود را با بهره گیری از سه الگوریتم متفاوت q-learning، r-learning و sarsa برای یک ساعت مشخص از شبانه روز به اپراتور سیستم اعلام می کنند. الگوریتم های یادگیری تقویتی ذکر شده با روش انتخاب عمل تبرید تدریجی، ترکیب شده اند. سود بدست آمده برای فروشندگان از دو دیدگاه دست یابی به بیشترین سود برای هر فروشنده و توزیع عادلانه سود بین همه فروشندگان، مورد مقایسه قرار گرفته است. همچنین تاثیر تغییر پارامترهای الگوریتم sa-r بر نحوه توزیع سود بین شرکت کنندگان بازار، بررسی شده است. سه معیار برای تشخیص توزیع عادلانه سود بین فروشندگان معرفی شده و بر اساس این معیارها، به ترتیب الگوریتم های sa-r، sa-sarsa و sa-q عادلانه ترین توزیع سود را برای فروشندگان به ارمغان می آورند. وضعیت تولید¬کنندگان، از نظر توان رقابت در بازار با هم مقایسه شده و به سه دسته دارای قدرت بازار، وضعیت مطلوب و وضعیت نا¬مطلوب تقسیم شده اند. برای فروشندگان با وضعیت مطلوب و قدرت بازار، به ترتیب الگوریتم های sa-q ، sa-sarsa و sa-r و برای فروشندگان با وضعیت نا¬مطلوب به ترتیب الگوریتم های sa-sarsa، sa-r و sa-q بیشترین سود را در پی دارند. بررسی تاثیر تغییر پارامترهای الگوریتم sa-r نشان داد، انتخاب مقادیر بزرگتر از 0.4 برای نرخ یادگیری و مقادیر بزرگتر از 0.1 برای نرخ یادگیری متوسط پاداش، به کنترل بیشتر قدرت بازار و توزیع عادلانه تری در سود می انجامد.

کنترل مقاوم عفونت hiv با استفاده از فازی نوع-2
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  منیژه سادات زنده سنجدبوری   محمد باقر نقیبی سیستانی

دینامیک hiv به طور کامل شناخته شده نیست و انسان ها نیز از لحاظ شرایط محیطی، فیزیکی و روحی یکسان نیستند. لذا برای بررسی و کنترل بیماری به منظور جلوگیری از بروز مرحله علامت دار (ایدز) نیاز به مدل و کنترل هایی بر اساس عدم قطعیت و ابهام است. در این پایان نامه، برای پوشش بهتر و کامل عدم قطعیت های عفونت hiv، از مجموعه های فازی نوع-2 بازه ای بهره بردیم. برای این منظور، ابتدا سیستم کنترل فازی نوع-2 بازه ای با استنتاج ممدانی برای کنترل عفونت hiv و تعیین دوز داروی مناسب، ارایه شده است. در ادامه برای پایداری و مقاوم بودن کنترل کننده و نیز افزایش دقت، از مدل فازی t-s نوع-2 بازه ای برای مدل سازی استفاده گردیده سپس با استفاده از فرآیند lmi، کنترل کننده مقاوم فازی نوع-2 بازه ای، طراحی شده است. نتایج شبیه سازی کارآیی، سرعت و دقت کنترل کننده طراحی شده را در زمینه کنترل عفونت hiv نسبت به کارهای گذشته نشان می دهد.برای بررسی و کنترل عفونت hiv نیاز به مدل و کنترل هایی بر اساس عدم قطعیت و ابهام است. در این پایان نامه، برای پوشش بهتر و کامل عدم قطعیت های عفونت hiv، از مجموعه های فازی نوع-2 بازه ای بهره بردیم. برای این منظور، ابتدا سیستم کنترل فازی نوع-2 بازه ای با استنتاج ممدانی برای کنترل عفونت hiv و تعیین دوز داروی مناسب، ارایه شده است. در ادامه برای پایداری و مقاوم بودن کنترل کننده و نیز افزایش دقت، از مدل فازی t-s نوع-2 بازه ای برای مدل سازی استفاده گردیده سپس با استفاده از فرآیند lmi، کنترل کننده مقاوم فازی نوع-2 بازه ای، طراحی شده است.

تعیین طرح اختلاط بتن پلاستیک مورداستفاده در دیوار آب بند سدهای خاکی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1394
  علی اخترپور

این پایان نامه به تعیین پیش بینی طرح اختلاط بتن پلاستیک مورد استفاده در دیوار آب بند سدهای خاکی با کمک شبکه های عصبی می پردازد. در واقع ما می توانیم با داشتن مقادیر ورودی طرح اختلاط از جمله: مقدارسیمان، نسبت آب به سیمان، مقداربنتونیت، اسلامپ، میزان وزنی سنگدانه ها، نسبت ماسه به مجموع ذرات، مجموع ذرات به سیمان،مقدارشن، مقدار ماسه، مقدار سیلت، مقدار رس، مقدار خاکستر، مقدار کائولینیت، ماکزیمم سایز دانه بندی و تیپ سیمان، پارامترهای مقاومت فشاری، مدول الاستیسیته، نفوذ پذیری و مقاومت کششی را پیش بینی نمود.