我正在尝试实现基于表格的 GLIE Monte-Carlo 学习算法。所以我重复n次:
- 使用我以前的策略创建观察结果
- 使用 1 中生成的观察值,使用 monte-carlo 更新规则更新我的状态动作值:
- 将我的政策更新为使用 epsilon-geedy 改进.
在第 2 步中,我需要决定初始估计. 这是一个不错的选择吗?
我正在尝试实现基于表格的 GLIE Monte-Carlo 学习算法。所以我重复n次:
在第 2 步中,我需要决定初始估计. 这是一个不错的选择吗?
在第 2 步中,我需要决定初始估计. 这是一个不错的选择吗?
是的,这是一个常见的选择。更新表实际上很常见到位,每个步骤没有任何单独的初始化。估计和策略改进的单独阶段更容易分析理论上的正确性,但在实践中进行更新可以更快,因为新信息在可用时立即使用。
根据政策的变化方式以及先前估计的准确程度,这可以使估计更接近下一步的收敛。通常,与您可以设置的任何固定或随机初始化方案相比,以前的估计值更接近新目标。