可以很容易地从动作价值函数中检索最优策略,但如何从状态价值函数中获得呢?
是否可以从状态值函数中检索最优策略?
人工智能
强化学习
动态规划
2021-11-04 06:31:41
1个回答
如果您还具有环境的状态转换和奖励模型,则可以从最优状态值函数中获得最优策略- 获得奖励的概率并到达状态在状态下启动时并采取行动.
这看起来像:
此功能有多种变化,具体取决于您表示环境知识的方式。例如,您实际上不需要完整的奖励分配模型,预期的奖励函数和状态转换规则的单独分配模型也可以工作。
如果至少没有环境的近似模型,您就无法从状态值推导出策略。如果您只有状态值,那么要选择最佳操作,您绝对需要能够提前一个时间步长,了解每个操作选择的下一个状态可能是什么。