机器算法验证 - 为什么贝叶斯方法不需要多次测试校正？ - 吾爱随笔录

为什么贝叶斯方法不需要多次测试校正？

机器算法验证假设检验贝叶斯多重比较

2022-02-13 05:41:39

Andrew Gelman 写了一篇关于为什么贝叶斯 AB 检验不需要多重假设校正的文章：为什么我们（通常）不必担心多重比较，2012。

我不太明白：为什么贝叶斯方法不需要多次测试校正？

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

我的理解是，上面显示的贝叶斯方法解释了所有假设的共享基础分布（与常客 Bonferroni 校正不同）。我的推理正确吗？

4个回答

回答这个问题的一个奇怪的方法是注意贝叶斯方法无法做到这一点，因为贝叶斯方法与公认的证据规则一致，而频率论方法经常与它们不一致。例子：

使用频率统计，比较治疗 A 和 B 必须惩罚比较治疗 C 和 D，因为考虑到家庭方面的 I 类错误；对于贝叶斯，AB 比较是独立的。
对于顺序频繁测试，对数据的多次查看通常需要惩罚。在分组顺序设置中，必须对 A 与 B 的早期比较进行惩罚，以便稍后进行尚未进行的比较，并且必须对较早的比较进行惩罚，即使较早的比较没有改变该过程的过程学习。

问题源于常客对时间和信息流的逆转，使得常客不得不考虑可能发生的事情，而不是已经发生的事情。相比之下，贝叶斯评估将所有评估锚定到先验分布，从而校准证据。例如，AB 差异的先验分布校准了 AB 的所有未来评估，并且不必考虑 CD。

对于顺序测试，当使用频率论推理提前终止实验时，如何调整点估计存在很大的困惑。在贝叶斯世界中，任何点估计的先验“回撤”，并且更新的后验分布随时适用于推理，不需要复杂的样本空间考虑。

这种类型的层次模型确实缩小了估计，并在合理的范围内减少了少量到中等数量的假设的虚假声明的数量。它是否保证某些特定的 I 类错误率？不。

Gelman 的这个特别建议（他承认查看太多不同事物的问题，然后很容易错误地得出结论认为您看到了其中一些东西——实际上是他博客上的一个最喜欢的话题）不同于极端的选择认为贝叶斯方法不需要考虑多重性的观点，因为所有重要的是你的可能性（和你的先验）。

非常有趣的问题，这是我的看法。

这都是关于编码信息，然后转动贝叶斯曲柄。这似乎好得令人难以置信——但这两者都比看起来更难。

我从问这个问题开始

当我们担心多重比较时，使用了什么信息？

我可以想到一些 - 第一个是“数据挖掘” - 测试“一切”，直到你获得足够的通过/失败（我认为几乎每个受过统计训练的人都会遇到这个问题）。你也没有那么险恶，但本质上是一样的“我有很多测试要运行——肯定不可能都是正确的”。

考虑到这一点后，我注意到的一件事是，您往往很少听到有关特定假设或特定比较的信息。这都是关于“收藏”的——这引发了我对可交换性的思考——被比较的假设在某种程度上彼此“相似”。您如何将可交换性编码到贝叶斯分析中？- 超先验、混合模型、随机效应等！！！

但可交换性只会让你成为其中的一部分。一切都可以交换吗？或者你是否有“稀疏性”——比如只有少数非零回归系数和大量候选者。混合模型和正态分布的随机效应在这里不起作用。他们在挤压噪声和保持信号不变之间“卡住”（例如，在您的示例中，保持 locationB 和 locationC “true”参数相等，并将 locationA “true”参数设置为任意大或小，并观察标准线性混合模型失败。） . 但它可以被修复——例如，使用“尖峰和平板”先验或“马蹄铁”先验。

因此，实际上更多的是描述您正在谈论的假设类型，并获得尽可能多的已知特征反映在先验和可能性中。Andrew Gelman 的方法只是一种隐式处理一大类多重比较的方法。就像最小二乘法和正态分布在大多数情况下（但不是全部）往往效果很好。

就它如何做到这一点而言，您可以认为一个人的推理如下 - A 组和 B 组可能具有相同的均值 - 我查看了数据，均值“接近” - 因此，为了获得更好的估计对于两者，我应该汇集数据，因为我最初的想法是它们具有相同的平均值。- 如果它们不相同，则数据提供了它们“接近”的证据，因此如果我的假设错误，合并“一点点”不会对我造成太大伤害（所有模型都是错误的，有些是有用的）

请注意，以上所有内容都取决于“它们可能相同”的初始前提。把它拿走，就没有理由进行汇集。您可能还可以看到考虑测试的“正态分布”方式。“最有可能为零”，“如果不是零，那么接下来最有可能接近零”，“不太可能出现极值”。考虑这个替代方案：

A 组和 B 组均值可能相同，但也可能截然不同

那么关于汇集“一点点”的论点是一个非常糟糕的主意。您最好选择总池或零池。更像是 Cauchy、spike&slab、类型的情况（大量质量在零附近，以及大量用于极值的质量）

不需要处理整个多重比较，因为贝叶斯方法将导致我们担心的信息整合到先验和/或可能性中。从某种意义上说，它更多地提醒您正确思考您可以获得哪些信息，并确保您已将其包含在您的分析中。

首先，据我了解您提出的模型，我认为它与 Gelman 提案有点不同，更像是：

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

在实践中，通过添加此commonLocation参数，对 3 个分布（此处为位置 1、2 和 3）的参数的推断不再相互独立。此外，commonLocation倾向于将参数的期望值缩小到中心（通常估计）的值。在某种意义上，它作为对所有推断的正则化，使得不需要对多次校正进行校正（因为在实践中，我们通过使用模型从它们之间的相互作用执行一个单一的多元估计会计）。

正如另一个答案所指出的，这种校正不提供对 I 类错误的任何控制，但在大多数情况下，即使在单一推理尺度上，贝叶斯方法也不提供任何此类控制，并且在贝叶斯中必须以不同方式考虑多重比较的校正环境。

其它你可能感兴趣的问题

上一篇无偏最大似然估计器总是最好的无偏估计器吗？下一篇有监督的聚类或分类？