为什么我们应该使用 t 错误而不是正常错误?

机器算法验证 分布 贝叶斯 正态分布 模型 强大的
2022-02-06 16:17:04

在Andrew Gelman 的这篇博文中,有以下段落:

50 年前的贝叶斯模型看起来非常简单(当然,对于简单的问题除外),我预计今天的贝叶斯模型在 50 年后也会看起来非常简单。(仅举一个简单的例子:我们可能应该经常使用 t 而不是几乎所有地方的正常错误,但出于熟悉、习惯和数学便利,我们还没有这样做。这些可能是很好的理由——在科学中在政治上,保守主义有许多有利于它的论据——但我认为,最终当我们对更复杂的模型感到满意时,我们将朝着这个方向前进。)

为什么我们应该“经常使用 t 而不是几乎无处不在的正常错误”?

2个回答

因为,假设正常错误实际上与假设不发生大错误相同!正态分布的尾部非常轻,因此标准差之外的错误概率非常低,标准差之外的错误实际上是不可能的。在实践中,这种假设很少是正确的。从精心设计的实验中分析小型、整洁的数据集时,如果我们对残差进行了良好的分析,这可能并不重要。对于质量较差的数据,它可能更重要。±3±6

当使用基于可能性(或贝叶斯)的方法时,这种正态性的影响(如上所述,实际上这是“没有大错误” - 假设!)是使推理变得非常不稳健。分析结果受大误差影响太大!必须如此,因为假设“没有大错误”会迫使我们的方法将大错误解释为小错误,而这只能通过移动平均值参数以使所有错误更小来实现。 避免这种情况的一种方法是使用所谓的“稳健方法”,请参阅 http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

但 Andrew Gelman 不会这样做,因为稳健的方法通常以高度非贝叶斯的方式呈现。在似然/贝叶斯模型中使用 t 分布的误差是获得稳健方法的另一种方法,因为分布的尾部比正常分布更重,因此允许更大比例的大误差。自由度参数的个数应该预先固定,而不是从数据中估计,因为这样估计会破坏方法的鲁棒性(*)(这也是一个非常困难的问题,对于的似然函数, number 自由度,可以是无界的,导致非常低效(甚至不一致)的估计器)。tν

例如,如果您认为(害怕)多达十分之一的观测值可能是“大误差”(高于 3 sd),那么您可以使用具有 2 个自由度分布,如果大错误的比例被认为较小。t

我应该注意,我上面所说的是针对具有独立分布误差的模型。也有人提出将多元分布(它不是独立的)作为误差分布。TS Breusch、JC Robertson 和 AH Welsh 在 Statistica Neerlandica (1997) 第 1 卷中的论文“皇帝的新装:对多元51,天然橡胶。3, pp. 269-286,他们表明多元误差分布在经验上与正态分布没有区别。但这种批评并不影响独立模型。 ttttt

(*) 说明这一点的一个参考文献是 Venables & Ripley 的 MASS---Modern Applied Statistics with S(第 4 版第 110 页)。

这不仅仅是“更重的尾巴”的问题——有很多分布是钟形的并且有很重的尾巴。

T 分布是高斯模型的后验预测。如果您做出高斯假设,但证据有限,则生成的模型必然会做出非中心缩放的 t 分布预测。在极限中,随着您拥有的证据数量趋于无穷,您最终会得到高斯预测,因为 t 分布的极限是高斯分布。

为什么会这样?因为在有限数量的证据下,模型的参数存在不确定性。在高斯模型的情况下,均值的不确定性只会增加方差(即,具有已知方差的高斯的后验预测仍然是高斯的)。但是关于方差的不确定性是导致重尾的原因。如果使用无限证据训练模型,则方差(或均值)不再有任何不确定性,您可以使用您的模型进行高斯预测。

这个论点适用于高斯模型。它也适用于推断其可能性为高斯的参数。给定有限数据,参数的不确定性是 t 分布的。只要有正态假设(均值和方差未知)和有限数据,就有 t 分布的后验预测。

所有贝叶斯模型都有相似的后验预测分布。格尔曼建议我们应该使用这些。有足够的证据可以减轻他的担忧。