我有一个关于Sutton & Barto 的第 111 页上的 off-policy MC 控制算法中的术语。我也将它包含在下图中。
我的问题:不应该检查更新前制作和? 并且,此时如果那么内部循环应该在更新之前退出. 如果那么不应该更新为 在更新之前和 $C(s, a) 函数?
所述算法对我来说似乎有问题。例如,如果说目标策略是确定性和行为策略是随机的。如果在期间行为策略采取的行动与那么重要性采样率. 但是,如图所示的算法会更新因为我上面提到的检查直到内部循环结束时才会发生。我在这里想念什么?
我有一个关于Sutton & Barto 的第 111 页上的 off-policy MC 控制算法中的术语。我也将它包含在下图中。
我的问题:不应该检查更新前制作和? 并且,此时如果那么内部循环应该在更新之前退出. 如果那么不应该更新为 在更新之前和 $C(s, a) 函数?
所述算法对我来说似乎有问题。例如,如果说目标策略是确定性和行为策略是随机的。如果在期间行为策略采取的行动与那么重要性采样率. 但是,如图所示的算法会更新因为我上面提到的检查直到内部循环结束时才会发生。我在这里想念什么?
我认为这是确保收敛性的算法的一个有意的微妙细节。书中的主张是,对于任何这为我们提供了“每对状态和动作的无限数量的回报”目标策略会收敛到最优。
现在想象一下,我们有这么糟糕的政策它永远不会与最后一步的目标政策行动保持一致每个生成的剧集:. 在这种情况下,重量值将保持不变并且算法将简化为(忽略最后的索引三胞胎):
这只是 Q 值的表格增量平均(参见例如 eq. (2.3))。
如果我们在这些更新之前退出 for 循环,那么根本不会发生更新。对于所有那些“好”的采样策略,作者将无法声称收敛到最优策略.