数据挖掘 - 看不到书的作者提到的“符号滥用”是什么 - 吾爱随笔录

看不到书的作者提到的“符号滥用”是什么

数据挖掘强化学习符号

2022-02-17 15:55:41

来自Sutton 和 Barto，Reinforcement Learning: An Introduction（第二版草稿），在第 38 页的方程 3.4 中。

四参数函数 p 给出的概率完全表征了有限 MDP 的动力学。从中，人们可以计算出任何其他人可能想知道的关于环境的信息，例如状态转移概率（我们将其表示为一个三参数函数，稍微滥用符号

$p(s^{'} | s, a) \dot{=}Pr\{S_t=s^{'} | S_{t-1} = s, A_{t-1}=a\} = \sum_{r\in{R}}{p(s^{'},r|s,a)}$

作者提到了，稍微滥用了符号。请问符号中的滥用在哪里？我没有看到任何不合适的东西。

谢谢你。

1个回答

数学表达式是完全合法的。滥用之处在于功能 $p$ ，这是第一次在等式 3.2 中定义，其中：

功能 $p: S$ X $R$ X $S$ X $A \rightarrow [0,1]$ . 是四个参数的普通确定性函数...

在此定义后仅两行（方程 3.4）重新定义略有不同，作为三参数函数 $p: S$ X $S$ X $A \rightarrow [0,1]$ .

如果他们使用 $p$ 代表常规概率度量，不会有滥用。在作者的注释中， $p$ 是确定性函数，而正则概率函数表示为 $Pr$ ; 并为略有不同的功能保持相同的名称，这就是“无辜”符号滥用的来源。

其它你可能感兴趣的问题

上一篇使用 keras.applications 模型中的新输入张量进行迁移学习的第一层权重？下一篇神经网络的类别及其应用