为什么价值函数有时用大写字母写，有时用小写字母写？

人工智能强化学习价值函数符号

2021-10-22 09:31:10

为什么状态-价值和行动-价值函数有时用小写字母写，有时用大写字母写？例如，为什么在 Q 学习算法中（Barto 和 Sutton 的书第 131 页，但不仅如此），我们使用大写字母 $Q(S, A)$ , 而贝尔曼方程是 $q(s,a)$ ?

2个回答

在萨顿和巴托的书中 $q(s,a)$ 用于表示采取行动的真实期望值 $a$ 处于状态 $s$ ，而资本 $Q(s,a)$ 用于表示估计 $q(s,a)$ . 然而，文献中可能存在很多不一致之处，因为每个作者对如何表示事物都有自己的偏好。我鼓励您考虑您正在阅读的值是表示估计值还是表示真实值。

普通变量与随机变量

区别在于您是在谈论普通变量还是随机变量。

例如，q 函数（小写）是一个期望值（即不是随机变量），以特定的状态-动作对为条件：

q (s, a) = E_{t} {R_{t} + γ R_{t + 1} + γ^{2} R_{t + 2} + \dots | S_{t} = s, A_{t} = a}

$q(s,a)\ =\ \mathbb{E}_t\left\{ R_t+\gamma R_{t+1} + \gamma^2R_{t+2}+\dots\,\Big|\, S_t=s, A_t=a \right\}$ 然后，在某些情况下，一些作者可能会通过将随机变量输入到 q 函数中来稍微滥用符号，例如

q (S_{t}, a)

$q(S_t,a)$ ,

q (s, A_{t})

$q(s,A_t)$ 甚至

q (S_{t}, A_{t})

$q(S_t,A_t)$ ，从而取消将 q 函数定义为期望值的部分或全部条件。

将随机变量输入到像 q 函数这样的函数中会产生一个本身就是随机变量的输出。正是出于这个原因，一些作者也选择给函数本身一个大写字母。

我的建议是自己想想，这是一个随机变量吗？对于其余部分，我会将大写/小写解释为对读者的提示。

其它你可能感兴趣的问题

上一篇人脑中是否使用了某种 dropout？下一篇one-shot learning、迁移学习和微调之间有什么区别？