看不到书的作者提到的“符号滥用”是什么

数据挖掘 强化学习 符号
2022-02-17 15:55:41

来自Sutton 和 Barto,Reinforcement Learning: An Introduction(第二版草稿),在第 38 页的方程 3.4 中。

四参数函数 p 给出的概率完全表征了有限 MDP 的动力学。从中,人们可以计算出任何其他人可能想知道的关于环境的信息,例如状态转移概率(我们将其表示为一个三参数函数,稍微滥用符号

p(s|s,a)=˙Pr{St=s|St1=s,At1=a}=rRp(s,r|s,a)

作者提到了,稍微滥用了符号请问符号中的滥用在哪里?我没有看到任何不合适的东西。

谢谢你。

1个回答

数学表达式是完全合法的。滥用之处在于功能p,这是第一次在等式 3.2 中定义,其中:

功能p:SXRXSXA[0,1]. 是四个参数的普通确定性函数...

在此定义后仅两行(方程 3.4)重新定义略有不同,作为三参数函数p:SXSXA[0,1].

如果他们使用p代表常规概率度量,不会有滥用。在作者的注释中,p是确定性函数,而正则概率函数表示为Pr; 并为略有不同的功能保持相同的名称,这就是“无辜”符号滥用的来源。