价值函数和Q值

数据挖掘 机器学习 强化学习
2022-02-03 12:29:54

我是强化学习的新手,我无法理解价值函数和 Q 值之间的区别

这是我目前的理解:Q 值只是所采取的特定动作的值,并且状态的值函数对该状态下可能的每个动作的 Q 值求和。

这个描述准确吗?

谢谢!

1个回答

这是我目前的理解:Q 值只是所采取的特定动作的值,并且状态的值函数对该状态下可能的每个动作的 Q 值求和。

这个描述准确吗?

不完全的。

首先 Q 值一种价值函数,它通常被称为动作值两个都Q(s,a)和状态值函数V(s)在给定参数、已知环境和已知策略的情况下计算预期的未来回报π描述了代理将如何在该环境中选择操作。

在行动价值的情况下Q(s,a),预期的未来回报是基于采取行动的代理人a处于状态s首先,然后π. 虽然状态值V(s),预期的未来回报将取决于采取什么行动π选择状态s.

之间的关系有几种写法V(s)Q(s,a). 如果策略函数是确定性的,则状态中的动作sπ(s)然后:

V(s)=Q(s,π(s))

如果策略函数是随机的,有选择动作的概率a处于状态sπ(a|s)

V(s)=aπ(a|s)Q(s,a)

正如您所建议的,这是一个总和,但由采取每个行动的概率加权。