数据挖掘 - 价值函数和Q值 - 吾爱随笔录

数据挖掘机器学习强化学习

2022-02-03 12:29:54

我是强化学习的新手，我无法理解价值函数和 Q 值之间的区别

这是我目前的理解：Q 值只是所采取的特定动作的值，并且状态的值函数对该状态下可能的每个动作的 Q 值求和。

这个描述准确吗？

谢谢！

1个回答

这是我目前的理解：Q 值只是所采取的特定动作的值，并且状态的值函数对该状态下可能的每个动作的 Q 值求和。

这个描述准确吗？

不完全的。

首先 Q 值是一种价值函数，它通常被称为动作值。两个都 $Q(s,a)$ 和状态值函数 $V(s)$ 在给定参数、已知环境和已知策略的情况下计算预期的未来回报 $\pi$ 描述了代理将如何在该环境中选择操作。

在行动价值的情况下 $Q(s,a)$ ，预期的未来回报是基于采取行动的代理人 $a$ 处于状态 $s$ 首先，然后是 $\pi$ . 虽然状态值 $V(s)$ ，预期的未来回报将取决于采取什么行动 $\pi$ 选择状态 $s$ .

之间的关系有几种写法 $V(s)$ 和 $Q(s,a)$ . 如果策略函数是确定性的，则状态中的动作 $s$ 由 $\pi(s)$ 然后：

V (s) = Q (s, π (s))

$V(s) = Q(s, \pi(s))$

如果策略函数是随机的，有选择动作的概率 $a$ 处于状态 $s$ 由 $\pi(a|s)$ ：

V (s) = \sum_{a} π (a | s) Q (s, a)

$V(s) = \sum_a \pi(a|s)Q(s, a)$

正如您所建议的，这是一个总和，但由采取每个行动的概率加权。

其它你可能感兴趣的问题