我对最优值的定义感到困惑() 和强化学习中的最优动作值 (Q*),所以我需要澄清一下,因为我在 Medium 和 GitHub 上阅读的一些博客与文献不一致。
本来我以为最优动作值,,表示您执行最大化当前奖励的操作,然后再采取最佳行动。
和最优值,, 是平均值那个状态的值。这意味着如果你处于这种状态,平均“善良”就是这样。
例如:如果我在玩具店,我可以买铅笔、溜溜球或乐高。
Q(toy store, pencil) = -10
Q(toy store, yo-yo) = 5
Q(toy store, Lego) = 50
因此我的
但我的在这种情况下是:
V* = -10 + 5 + 50 / 3 = 15
表示无论我采取什么行动,未来的平均预期回报是.
为了学习的优势,我的基线是. 所以任何小于比平均水平差,高于任何水平好于平均水平。
但是,现在我正在阅读有关如何实际上假设在给定状态下的最优动作,意思是在上述情况下为 50。
我想知道哪个定义是正确的。