是否可以从状态值函数中检索最优策略?

人工智能 强化学习 动态规划
2021-11-04 06:31:41

可以很容易地从动作价值函数中检索最优策略,但如何从状态价值函数中获得呢?

1个回答

如果您还具有环境的状态转换和奖励模型,则可以从最优状态值函数中获得最优策略p(s,r|s,a)- 获得奖励的概率r并到达状态s在状态下启动时s并采取行动a.

这看起来像:

π(s)=argmaxa[s,rp(s,r|s,a)(r+γv(s))]

此功能有多种变化,具体取决于您表示环境知识的方式。例如,您实际上不需要完整的奖励分配模型,预期的奖励函数和状态转换规则的单独分配模型也可以工作。

如果至少没有环境的近似模型,您就无法从状态值推导出策略。如果您只有状态值,那么要选择最佳操作,您绝对需要能够提前一个时间步长,了解每个操作选择的下一个状态可能是什么。