人工智能 - 为什么使用状态-动作价值函数多于状态价值函数？ - 吾爱随笔录

为什么使用状态-动作价值函数多于状态价值函数？

人工智能强化学习比较价值函数

2021-10-28 01:31:00

在强化学习中，状态-动作价值函数似乎比状态价值函数被更多地使用。为什么会这样？

1个回答

我们最终对获得最优策略感兴趣，即达到最终目标的最优行动顺序。状态值本身并不能提供这一点，它们会告诉您从特定状态开始的预期回报，但不会告诉您要采取的行动。为了在特定状态下得出最佳动作，您必须提前一步模拟所有可能的动作，然后选择引导您进入具有最高状态值的状态的动作。这通常是不方便或不可能的。状态动作值将预期回报与动作而不是状态联系起来，因此您无需提前一步模拟所有动作并查看最终结果，您只需选择具有最高值的动作，因为您知道那是在该状态下采取的最佳行动。

其它你可能感兴趣的问题

上一篇每个智能代理类的智能代理有哪些示例？下一篇我应该使用哪种优先体验回放？