因为,假设正常错误实际上与假设不发生大错误相同!正态分布的尾部非常轻,因此标准差之外的错误概率非常低,标准差之外的错误实际上是不可能的。在实践中,这种假设很少是正确的。从精心设计的实验中分析小型、整洁的数据集时,如果我们对残差进行了良好的分析,这可能并不重要。对于质量较差的数据,它可能更重要。±3±6
当使用基于可能性(或贝叶斯)的方法时,这种正态性的影响(如上所述,实际上这是“没有大错误” - 假设!)是使推理变得非常不稳健。分析结果受大误差影响太大!必须如此,因为假设“没有大错误”会迫使我们的方法将大错误解释为小错误,而这只能通过移动平均值参数以使所有错误更小来实现。 避免这种情况的一种方法是使用所谓的“稳健方法”,请参阅 http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
但 Andrew Gelman 不会这样做,因为稳健的方法通常以高度非贝叶斯的方式呈现。在似然/贝叶斯模型中使用 t 分布的误差是获得稳健方法的另一种方法,因为分布的尾部比正常分布更重,因此允许更大比例的大误差。自由度参数的个数应该预先固定,而不是从数据中估计,因为这样估计会破坏方法的鲁棒性(*)(这也是一个非常困难的问题,对于的似然函数, number 自由度,可以是无界的,导致非常低效(甚至不一致)的估计器)。tν
例如,如果您认为(害怕)多达十分之一的观测值可能是“大误差”(高于 3 sd),那么您可以使用具有 2 个自由度分布,如果大错误的比例被认为较小。t
我应该注意,我上面所说的是针对具有独立分布误差的模型。也有人提出将多元分布(它不是独立的)作为误差分布。TS Breusch、JC Robertson 和 AH Welsh 在 Statistica Neerlandica (1997) 第 1 卷中的论文“皇帝的新装:对多元51,天然橡胶。3, pp. 269-286,他们表明多元误差分布在经验上与正态分布没有区别。但这种批评并不影响独立模型。 ttttt
(*) 说明这一点的一个参考文献是 Venables & Ripley 的 MASS---Modern Applied Statistics with S(第 4 版第 110 页)。