人工智能 - 是否可以从状态值函数中检索最优策略？ - 吾爱随笔录

人工智能强化学习动态规划

2021-11-04 06:31:41

可以很容易地从动作价值函数中检索最优策略，但如何从状态价值函数中获得呢？

1个回答

如果您还具有环境的状态转换和奖励模型，则可以从最优状态值函数中获得最优策略 $p(s',r|s,a)$ - 获得奖励的概率 $r$ 并到达状态 $s'$ 在状态下启动时 $s$ 并采取行动 $a$ .

这看起来像：

π^{*} (s) = {argmax}_{a} [\sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v^{*} (s^{'}))]

$\pi^*(s) = \text{argmax}_a [\sum_{s',r} p(s',r|s,a)(r + \gamma v^*(s'))]$

此功能有多种变化，具体取决于您表示环境知识的方式。例如，您实际上不需要完整的奖励分配模型，预期的奖励函数和状态转换规则的单独分配模型也可以工作。

如果至少没有环境的近似模型，您就无法从状态值推导出策略。如果您只有状态值，那么要选择最佳操作，您绝对需要能够提前一个时间步长，了解每个操作选择的下一个状态可能是什么。

其它你可能感兴趣的问题