我有一个关于Sutton & Barto 的第 111 页上的 off-policy MC 控制算法中的术语。我也将它包含在下图中。
我的问题:不应该检查更新前制作和? 并且,此时如果那么内部循环应该在更新之前退出. 如果那么不应该更新为 在更新之前和 $C(s, a) 函数?
所述算法对我来说似乎有问题。例如,如果说目标策略是确定性和行为策略是随机的。如果在期间行为策略采取的行动与那么重要性采样率. 但是,如图所示的算法会更新因为我上面提到的检查直到内部循环结束时才会发生。我在这里想念什么?