在强化学习中,状态-动作价值函数似乎比状态价值函数被更多地使用。为什么会这样?
为什么使用状态-动作价值函数多于状态价值函数?
人工智能
强化学习
比较
价值函数
2021-10-28 01:31:00
1个回答
我们最终对获得最优策略感兴趣,即达到最终目标的最优行动顺序。状态值本身并不能提供这一点,它们会告诉您从特定状态开始的预期回报,但不会告诉您要采取的行动。为了在特定状态下得出最佳动作,您必须提前一步模拟所有可能的动作,然后选择引导您进入具有最高状态值的状态的动作。这通常是不方便或不可能的。状态动作值将预期回报与动作而不是状态联系起来,因此您无需提前一步模拟所有动作并查看最终结果,您只需选择具有最高值的动作,因为您知道那是在该状态下采取的最佳行动。
其它你可能感兴趣的问题