我试图了解更新 Q 表值的贝尔曼方程。最初更新值的概念对我来说很清楚。不清楚的是该值的后续更新。值是否被每一集替换?这似乎不会从过去吸取教训。也许将上一集的值与现有值平均?
不是专门从书上看的。我正在使用等式
在哪里是学习率。将鼓励探索,并且会鼓励剥削。我正在使用一个简单的来自YouTube的矩阵
我试图了解更新 Q 表值的贝尔曼方程。最初更新值的概念对我来说很清楚。不清楚的是该值的后续更新。值是否被每一集替换?这似乎不会从过去吸取教训。也许将上一集的值与现有值平均?
不是专门从书上看的。我正在使用等式
在哪里是学习率。将鼓励探索,并且会鼓励剥削。我正在使用一个简单的来自YouTube的矩阵
我认为您对什么是更新功能和目标有些困惑。
您在那里的方程式,以及视频中所做的是对某个状态的真实值的估计。在时间差分算法中,这称为 TD-Target。
您感到困惑的原因可能是在视频中,他从结束状态开始,然后使用该公式向后退,以获得每个状态的最终值。但这不是您更新值的方式,而是您希望在迭代状态结束时到达的位置。
更新公式可能有多种形式,具体取决于算法。对于 TD(0),这是一个简单的 1 步前瞻策略,其中正在评估的是状态(如您的情况),更新函数是:
估计将慢慢收敛到由您的方程给出的状态的实际值:
此外,该正如您引用的视频中所说,实际上是与未来状态相关的折扣。它基本上说明了您对未来状态奖励的重视程度。如果,那么你只关心你当前状态的奖励来评估它(这不是用的)。在另一个极端,如果您将为在前 5 步的状态中获得的奖励付出与当前状态一样多的价值。如果您使用一些中间值,您将对未来的奖励给予一定的重视,但不如现在的奖励那么重要。状态奖励的衰减在未来由.
我要纠正的另一件事是探索-开发平衡与. 它通常由一些策略来平衡,例如. 例如,这表明您采取的某些行动是随机的,这反过来又使您探索价值较低的状态。