为什么 GLIE+MC 控制算法使用单集的蒙特卡罗评估?
人工智能
强化学习
蒙特卡罗方法
2021-11-03 12:06:18
1个回答
我觉得一般的答案是我们希望尽可能高效地从经验中学习。
这里的策略改进总是会产生等效或更好的策略,因此延迟改进步骤以收集更多情节只会减慢学习速度。
我还要指出,经常使用不同类型的蒙特卡洛学习。相反,更新速度通常由新的超参数控制,而不是跟踪访问次数。然后 Q 估计值更新如下:
的价值然后让您调整发生了多少评估与改进。这称为常数阿尔法蒙特卡洛。这通常被用作介绍 TD 方法的垫脚石,例如,在 Sutton 和 Barto 书中的 6.1 中。
其它你可能感兴趣的问题