当 alpha 等于 1 时,TD(0) 算法与动态规划中的策略评估之间的同一性

数据挖掘 强化学习 动态规划
2022-03-03 18:32:17

TD(0) 算法被定义为以下的迭代更新:

V(s)V(s)+α(r+γV(s)V(s))

现在,如果我们假设 alpha 等于 1,我们会得到动态规划中的传统策略评估公式。这是正确的吗?

2个回答

否 - 动态编程通过首先查看所有可能的下一个状态来估计下一个状态的值。时间差 0 仅通过查看单个下一个状态来估计下一个状态的值。

α与 RL 算法的类型无关。它是学习率,即更新状态值的速率。您可以将其设置为 1 或更少。

政策评估是一个“一般原则”。时间差异是使其发挥作用的一种方式。更准确地说,TD 定义了在未来多长时间内考虑行动的后果。在您的方程式中,伽玛定义您对未来的考虑程度。