نتایج جستجو برای: وزن دهی critic

تعداد نتایج: 69016  

2008
Jia Ma Tao Yang Zeng-Guang Hou Min Tan

Vibration isolation control is the critical issue to guarantee the performance of various vibration-sensitive instruments and sensors in practical engineering systems. In this paper, single network adaptive critic (SNAC) based controllers are developed for vibration isolation applications. The SNAC approach differs from the typical action-critic dual network structure in adaptive critic designs...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده علوم ریاضی 1391

چکیده به علت اندک بودن داده های آمارگیری در کوچک ناحیه ها، براوردگرهای مستقیم از دقت بالایی برخوردار نیستند. با توجه به افزایش وسیع تقاضا برای تولید آماره های معتبر و دقیق برای کوچک ناحیه ها، سعی شده است که با ارایه رویکردهای مناسب این مشکل حل شود. رویکردهای براورد کوچک ناحیه ای براساس مدل به خصوص آن هایی که براساس مدل های آمیخته ی خطی با اثرهای تصادفی ناحیه ای هستند با استفاده از منبع های مخت...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده برق و کامپیوتر 1390

انتخاب ویژگییکی از مهم ترین اقدامات پیش پردازش در عملیات داده کاوی می باشد. با انجام این مرحله از فرایند، حجم داده های پردازشی کمتر می شود، عملیات داده کاوی سریع تر و دقت الگوریتم هاییادگیری بیشتر می شود. روش های انتخاب خصیصه از لحاظ نحوه انتخاب به دو نوع انتخاب مجموعه ای و رتبه بندی خصیصه ها طبقه بندی می شوند. در این پژوهش مساله انتخاب ویژگی و مهم ترین روش های ارائه شده که از طریق رتبه بندی خص...

Journal: :CoRR 2018
Hamid Reza Maei

We present the first class of policy-gradient algorithms that work with both state-value and policy function-approximation, and are guaranteed to converge under off-policy training. Our solution targets problems in reinforcement learning where the action representation adds to thecurse-of-dimensionality; that is, with continuous or large action sets, thus making it infeasible to estimate state-...

ژورنال: :iran agricultural research 0
y. emam shiraz university m. sedaghat shiraz university h. bahrani shiraz university

درک روابط بین مبدا و مقصد فیزیولوژیک در گیاه ذرت در مناطق عمده کشت این محصول از اهمیت ویژه ای برخوردار است. این آزمایش در بهار و تابستان سال 1386 با هدف بررسی تاثیر محدودیت مبدا بر اندازه مقصد فیزیولوژیک ذرت هیبرید سینگل کراس ٧٠٤ در مزرعه تحقیقاتی دانشکده کشاورزی دانشگاه شیراز انجام شد. آزمایش به صورت فاکتوریل در قالب طرح بلوک های کامل تصادفی با چهار تکرار صورت گرفت. تیمارهای زمان حذف برگ در چه...

ژورنال: :جغرافیا و توسعه 0

امروزه امکان سنجی توسعه ی بخش های اقتصادی با استفاده از مدل های تحلیلی رواج گسترده ای یافته است. در این مقاله هدف بر آن است تا توانمندی های بخش کشاورزی استان خراسان جنوبی در جهت توسعه ی پایدار با استفاده  از مدل(swot)؛ مشتمل بر چهار مفهوم قوت ها، ضعف ها، فرصت ها و تهدیدها مورد سنجش قرار گیرد. روش پژوهش بر مبنای هدف، از نوع کاربردی و بر مبنای ماهیت و روش، از نوع تحقیقات توصیفی- تحلیلی و پیمایشی ...

2014
Kimberly L. Stachenfeld Matthew M. Botvinick Samuel J. Gershman

The SR-based critic learns an estimate of the value function, using the SR as its feature representation. Unlike standard actor-critic methods, the critic does not use reward-based temporal difference errors to update its value estimate; instead, it relies on the fact that the value function is given by V (s) = ∑ s′ M(s, s ′)R(s′), where M is the successor representation andR is the expected re...

2013
A. Shafiekhani M. J. Mahjoob M. Roozegar

In this work, an adaptive critic-based neuro-fuzzy is presented for an unmanned bicycle. The only information available for the critic agent is the system feedback which is interpreted as the last action the controller has performed in the previous state. The signal produced by the critic agent is used alongside the back propagation of error algorithm to tune online conclusion parts of the fuzz...

Journal: :ESAIM: Control, Optimisation and Calculus of Variations 2023

We introduce a class of variational actor-critic algorithms based on formulation over both the value function and policy. The objective consists two parts: one for maximizing other minimizing Bellman residual. Besides vanilla gradient descent with policy updates, we propose variants, clipping method flipping method, in order to speed up convergence. also prove that, when prefactor residual is s...

نمودار تعداد نتایج جستجو در هر سال

با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید