机器算法验证 - 贝叶斯何时（以及为什么）拒绝有效的贝叶斯方法？ - 吾爱随笔录

贝叶斯何时（以及为什么）拒绝有效的贝叶斯方法？

机器算法验证贝叶斯常客哲学的

2022-03-10 03:13:23

从我读过的内容和对我在这里提出的其他问题的回答来看，许多所谓的频率论方法在数学上对应（我不在乎它们是否在哲学上对应，我只关心它是否在数学上对应）所谓的特殊情况贝叶斯方法（对于那些反对这一点的人，请参阅本问题底部的注释）。这个对相关问题（不是我的）的回答支持这个结论：

大多数频率学方法都有一个贝叶斯等价物，在大多数情况下会给出基本相同的结果。

请注意，在下文中，数学上相同意味着给出相同的结果。如果你描述了两种可以被证明总是给出相同结果的方法是“不同的”，那是你的权利，但这是一种哲学判断，不是数学判断，也不是实际判断。

然而，许多自称为“贝叶斯”的人似乎在任何情况下都拒绝使用最大似然估计，即使它是（数学上）贝叶斯方法的一个特例，因为它是一种“频率论方法”。显然，与常客相比，贝叶斯主义者也使用有限/有限数量的分布，即使从贝叶斯的角度来看，这些分布在数学上也是正确的。

问题：贝叶斯主义者何时以及为什么拒绝从贝叶斯观点来看数学上正确的方法？这有什么不是“哲学”的理由吗？

背景/上下文：以下是对我在 CrossValidated 上一个问题的回答和评论的引用：

贝叶斯与常客辩论的数学基础非常简单。在贝叶斯统计中，未知参数被视为随机变量；在频率统计中，它被视为一个固定元素......

从上面我可以得出结论，（从数学上讲）贝叶斯方法比频率论方法更普遍，因为频率论模型满足所有与贝叶斯模型相同的数学假设，但反之则不然。然而，同样的答案认为我从上面得出的结论是不正确的（下面的重点是我的）：

尽管常数是随机变量的特例，但我会犹豫得出贝叶斯主义更普遍的结论。通过简单地将随机变量折叠为常数，您不会从贝叶斯结果中获得常客结果。区别就更深了……

进入个人喜好......我不喜欢贝叶斯统计使用相当有限的可用分布子集。

另一位用户在他们的回答中表示相反，贝叶斯方法更通用，尽管奇怪的是，我能找到的最佳理由是在之前的回答中，这是由受过常客训练的人给出的。

数学上的结果是，频率论者认为概率的基本方程只有时适用，而贝叶斯论者认为它们总是适用。所以他们认为相同的方程是正确的，但它们的普遍性不同......贝叶斯比频率论更普遍。由于任何事实都可能存在不确定性，因此可以为任何事实分配概率。特别是，如果您正在处理的事实与现实世界的频率相关（作为您正在预测的事物或数据的一部分），那么贝叶斯方法可以像对待任何其他现实世界的事实一样考虑和使用它们。因此，频率论者认为他们的方法适用于贝叶斯的任何问题也可以自然地解决。

从以上答案中，我的印象是，常用的贝叶斯术语至少有两种不同的定义。第一个我称之为“数学贝叶斯”，它包含所有统计方法，因为它包括常数 RV 和非常数 RV 的参数。然后是“文化贝叶斯”，它拒绝一些“数学贝叶斯”方法，因为这些方法是“频率主义者”（即出于个人敌意，有时将参数建模为常数或频率）。上述问题的另一个答案似乎也支持这个猜想：

还值得注意的是，两个阵营使用的模型之间存在很多分歧，这些分歧更多地与已经完成的事情相关，而不是与可以完成的事情相关（即一个阵营传统上使用的许多模型可以被另一个阵营证明是合理的）。

所以我想另一种表达我的问题的方式如下：如果文化贝叶斯主义者拒绝许多数学贝叶斯方法，为什么他们称自己为贝叶斯主义者？为什么他们拒绝这些数学贝叶斯方法？对于最经常使用这些特定方法的人来说，这是个人仇恨吗？

编辑：如果两个对象具有相同的属性，则它们在数学意义上是等效的，无论它们是如何构造的。例如，我可以想到至少五种不同的方式来构建虚数单位 $i$ . 然而，关于虚数的研究，至少有五种不同的“思想流派”。事实上，我相信只有一个，那就是研究它们的特性的那群人。对于那些反对使用最大似然获得点估计与使用最大先验和统一先验获得点估计不同的人来说，因为所涉及的计算不同，我承认它们在哲学意义上是不同的，但是如果它们总是给出相同的估计值，它们在数学上是等价的，因为它们具有相同的属性。也许哲学上的差异与您个人有关，但与这个问题无关。

注意：这个问题最初对具有统一先验的 MLE 估计和 MAP 估计进行了错误的表征。

3个回答

我想纠正原帖中的一个错误假设，这是一个相对常见的错误。OP 说：

从我读过的内容和我在这里提出的其他问题的答案来看，最大似然估计在数学上对应（我不在乎它是否在哲学上对应，我只关心它是否在数学上对应）与使用统一先验的最大先验估计（对于那些反对这一点的人，请参阅此问题底部的注释）。

帖子底部的注释说：

如果两个对象具有相同的属性，则无论它们是如何构造的，它们在数学意义上是等价的。[...]

我的反对意见是，撇开哲学不谈，最大似然估计 (MLE) 和最大后验 (MAP) 估计不具有相同的数学属性。

至关重要的是，在空间的（非线性）重新参数化下，MLE 和 MAP 的变换方式不同。发生这种情况是因为 MLE 在每个参数化中都有一个“平坦先验”，而 MAP 没有（先验转换为概率密度，因此有一个雅可比项）。

数学对象的定义包括对象在变量变换等运算符下的行为（例如，参见定义 a tensor）。

总之，MLE 和 MAP 在哲学上和数学上都不是一回事。这不是一个意见。

就我个人而言，我是一个“实用主义者”而不是“频率主义者”或“贝叶斯主义者”，所以我不能声称代表任何阵营。

也就是说，我认为您所暗示的区别可能不是 MLE 与 MAP，而是点估计与估计后验 PDF之间的区别。作为一名在数据稀少、不确定性大的领域工作的科学家，我可以同情我不想对“最佳猜测”结果过于自信，这可能会产生误导，导致过度自信。

一个相关的实际区别是参数方法与非参数方法之间的区别。因此，例如，我认为卡尔曼滤波和粒子滤波都将被接受为Recursive Bayesian Estimation。但是如果后验不是单峰的，卡尔曼滤波（一种参数方法）的高斯假设会给出非常误导的结果。对我来说，这些工程示例突出了差异既不是哲学上的也不是数学上的，而是体现在实际结果上（即你的自动驾驶汽车会撞车吗？）。对于我熟悉的贝叶斯爱好者来说，这种“看看什么有效”的工程风格态度似乎占主导地位......不确定这是否更广泛。

然而，许多自称为“贝叶斯”的人似乎在任何情况下都拒绝使用最大似然估计，即使它是（数学上）贝叶斯方法的一个特例，因为它是一种“频率论方法”。

这样的人会拒绝将 MLE 作为进行点估计的一般方法。在他们有理由使用统一先验并希望做出最大后验估计的特定情况下，他们根本不会因为他们的计算与 MLE 的巧合而烦恼。

显然，与常客相比，贝叶斯主义者也使用有限/有限数量的分布，即使从贝叶斯的角度来看，这些分布在数学上也是正确的。

也许有时，为了让他们的计算更容易，但不是从任何原则角度。

我的印象是，常用的贝叶斯术语至少有两种不同的定义。第一个我称之为“数学贝叶斯”，它包含所有统计方法，因为它包括常数 RV 和非常数 RV 的参数。然后是“文化贝叶斯”，它拒绝一些“数学贝叶斯”方法，因为这些方法是“频繁的”（即出于个人对有时被建模为常数或频率的参数的敌意）。

贝叶斯推理的不同方法之间肯定有区别，但不是这个。如果说贝叶斯主义在某种意义上更普遍，那就是愿意将概率概念应用于参数值的认知不确定性，而不仅仅是频率主义所关注的数据生成过程的偶然不确定性。频率论推理不是贝叶斯推理的特例，在贝叶斯与频率论辩论是否有任何数学基础？暗示它是。如果在贝叶斯方法中，您将参数视为恒定的随机变量，那么无论数据是什么，您都会获得相同的后验——& 说它是恒定的，但您不知道它需要什么值不会说什么值得一说。常客方法采用完全不同的方法，根本不涉及后验分布的计算。

其它你可能感兴趣的问题

上一篇为什么在梯度下降中使用固定步长时我的步数越来越小？下一篇计算两个数的标准差有意义吗？