为什么价值函数有时用大写字母写,有时用小写字母写?

人工智能 强化学习 价值函数 符号
2021-10-22 09:31:10

为什么状态-价值和行动-价值函数有时用小写字母写,有时用大写字母写?例如,为什么在 Q 学习算法中(Barto 和 Sutton 的书第 131 页,但不仅如此),我们使用大写字母Q(S,A), 而贝尔曼方程是q(s,a)?

2个回答

在萨顿和巴托的书中q(s,a)用于表示采取行动的真实期望值a处于状态s,而资本Q(s,a)用于表示估计q(s,a). 然而,文献中可能存在很多不一致之处,因为每个作者对如何表示事物都有自己的偏好。我鼓励您考虑您正在阅读的值是表示估计值还是表示真实值。

普通变量与随机变量

区别在于您是在谈论普通变量还是随机变量。

例如,q 函数(小写)是一个期望值(即不是随机变量),以特定的状态-动作对为条件:

q(s,a) = Et{Rt+γRt+1+γ2Rt+2+|St=s,At=a}
然后,在某些情况下,一些作者可能会通过将随机变量输入到 q 函数中来稍微滥用符号,例如q(St,a),q(s,At)甚至q(St,At),从而取消将 q 函数定义为期望值的部分或全部条件。

将随机变量输入到像 q 函数这样的函数中会产生一个本身就是随机变量的输出。正是出于这个原因,一些作者也选择给函数本身一个大写字母。

我的建议是自己想想,这是一个随机变量吗?对于其余部分,我会将大写/小写解释为对读者的提示。