为什么我们假设误差是正态分布的?

机器算法验证 回归 正态假设 pac学习
2022-01-26 03:55:36

我想知道为什么我们在建模错误时使用高斯假设。斯坦福的 ML course 中,Ng 教授基本上以两种方式描述它:

  1. 它在数学上很方便。(它与最小二乘拟合有关,很容易用伪逆求解)
  2. 由于中心极限定理,我们可以假设有许多潜在的事实影响过程,并且这些单个误差的总和将趋向于表现为零均值正态分布。在实践中,似乎是这样。

其实我对第二部分很感兴趣。据我所知,中心极限定理适用于 iid 样本,但我们不能保证基础样本是 iid。

您对错误的高斯假设有任何想法吗?

1个回答

我认为您基本上已经在问题中一针见血,但我会看看我是否可以添加一些东西。我将以一种迂回的方式回答这个问题......

稳健统计领域研究了当高斯假设失败时(在存在异常值的意义上)该怎么办的问题:

通常假设数据误差是正态分布的,至少是近似的,或者可以依靠中心极限定理来产生正态分布的估计。不幸的是,当数据中存在异常值时,经典方法的性能往往很差

这些也已应用于 ML,例如Mika el al。(2001) A Mathematical Programming Approach to the Kernel Fisher Algorithm,他们描述了Huber 的鲁棒损失如何与 KDFA(以及其他损失函数)一起使用。当然这是一种分类损失,但 KFDA 与 Relevance Vector Machine 密切相关(参见 Mika 论文的第 4 节)。

正如问题中所暗示的那样,损失函数和贝叶斯误差模型之间存在密切联系(参见此处进行讨论)。

然而,一旦你开始合并“时髦”的损失函数,优化就会变得很困难(请注意,这也发生在贝叶斯世界中)。所以在很多情况下,人们会求助于易于优化的标准损失函数,而是进行额外的预处理以确保数据符合模型。

您提到的另一点是 CLT 仅适用于 IID 样本。这是真的,但是大多数算法的假设(以及伴随的分析)是相同的。当您开始查看非 IID 数据时,事情变得更加棘手。一个例子是,如果存在时间相关性,在这种情况下,通常的方法是假设相关性只跨越某个窗口,因此可以认为样本在该窗口之外近似 IID(参见例如这篇精彩但坚韧的论文Chromatic PAC - 非独立同分布数据的贝叶斯界限:在排序和平稳 β-混合过程中的应用),之后可以应用正态分析。

所以,是的,它部分归结为方便,部分原因是在现实世界中,大多数错误看起来(大致)高斯。当然,在查看新问题时应始终小心,以确保不违反假设。