来自Sutton 和 Barto,Reinforcement Learning: An Introduction(第二版草稿),在第 38 页的方程 3.4 中。
四参数函数 p 给出的概率完全表征了有限 MDP 的动力学。从中,人们可以计算出任何其他人可能想知道的关于环境的信息,例如状态转移概率(我们将其表示为一个三参数函数,稍微滥用符号
作者提到了,稍微滥用了符号。请问符号中的滥用在哪里?我没有看到任何不合适的东西。
谢谢你。
来自Sutton 和 Barto,Reinforcement Learning: An Introduction(第二版草稿),在第 38 页的方程 3.4 中。
四参数函数 p 给出的概率完全表征了有限 MDP 的动力学。从中,人们可以计算出任何其他人可能想知道的关于环境的信息,例如状态转移概率(我们将其表示为一个三参数函数,稍微滥用符号
作者提到了,稍微滥用了符号。请问符号中的滥用在哪里?我没有看到任何不合适的东西。
谢谢你。
数学表达式是完全合法的。滥用之处在于功能,这是第一次在等式 3.2 中定义,其中:
功能XXX. 是四个参数的普通确定性函数...
在此定义后仅两行(方程 3.4)重新定义略有不同,作为三参数函数XX.
如果他们使用代表常规概率度量,不会有滥用。在作者的注释中,是确定性函数,而正则概率函数表示为; 并为略有不同的功能保持相同的名称,这就是“无辜”符号滥用的来源。