机器算法验证 - 过拟合与对异常值的鲁棒性之间的关系 - 吾爱随笔录

过拟合与对异常值的鲁棒性之间的关系

机器算法验证异常值过拟合强大的噪音

2022-04-04 03:01:12

过拟合和对异常值的敏感性之间有什么关系？例如：

对异常值的鲁棒性是否必然使模型不太容易过度拟合？
反过来呢？不太容易过度拟合的模型通常对异常值更稳健吗？

还是这些概念根本没有关系？

噪声驱动过拟合和异常值

例如，考虑维基百科中的这个定义：

“过拟合的本质是在不知不觉中提取了一些残余变化（即噪声），好像该变化代表了底层模型结构”，这表明噪声和过拟合之间存在更深层次的联系。

很明显，某种形式的噪声在过度拟合中起作用。类似地，人们经常将异常值建模为模型可能产生的噪声，也就是说，您可以通过使用可以解释异常值的噪声模型来保护自己免受例如肥尾分布的影响。

所以也许这里的关系归结为我们在过度拟合和异常值中对抗的是什么类型的噪音？如果是这样，这些类型的噪声的良好定义是什么，它们之间的关系是什么？

4个回答

模型如何变得“对异常值具有鲁棒性”？它通过使用包含异常值的噪声模型来确认它们在模型规范中的存在。在概率建模中，这可以通过假设某种肥尾噪声分布来实现。从优化的角度来看，同样的事情可以通过使用“离群鲁棒成本函数”（例如Huber 损失函数）来实现。请注意，这两个世界之间存在等价关系，例如，L2 范数误差最小化对应于高斯噪声的假设，而 L1 范数误差最小化（对异常值更稳健）对应于拉普拉斯噪声的假设。总结一下，对异常值的鲁棒性与过程本身的模型无关；它仅取决于噪声模型的正确性。

模型如何变得“对过度拟合具有鲁棒性”？过拟合是模型不匹配的一个症状：过程模型过于灵活，噪声模型不正确。如果我们确切地知道预期的测量噪声水平，即使是非常灵活的模型也不会过拟合。在实践中，通过使用灵活的模型类来实现对过拟合的鲁棒性，但通过正则化（使用参数的先验或等效的 L1/L2 正则化项）使模型偏向于更简单的解释。

这两个属性有什么关系？使用没有适当参数先验或正则化的灵活模型类，并假设肥尾噪声分布或稳健的损失函数，您就有了一个对异常值稳健但不会过度拟合的推理过程。使用适当的正则化项但通常使用 L2 误差最小化，并且您有一种对过度拟合但对异常值不稳健的方法。这两个属性相互正交，因为它们与假设的统计模型的不同组成部分相关：对异常值的鲁棒性取决于噪声模型/误差损失函数的正确性，而对过拟合的鲁棒性取决于参数先验/正则化项。

提出了有趣的问题。我将针对统计分类器的用例解决这两个问题，以便将分析划分为我们可以监督的模型域。

在开始详细回答之前，我确实想讨论一下Robustness的定义。对稳健性的概念给出了不同的定义。人们可以讨论模型的稳健性——与结果稳健性相反。模型稳健性意味着您的一般模型结果 - 以及其预测的分布 - 它们对训练集中越来越多的极值不太敏感甚至不敏感。另一方面，结果稳健性是指相对于一个特定的预测结果，输入变量中增加的噪声水平的（不）敏感性。我假设您在问题中解决了模型稳健性问题。

为了解决第一个问题，我们需要区分使用全局或局部距离度量来模拟类依赖（概率）的分类器和无分布分类器。

判别分析、k-最近邻分类器、神经网络、支持向量机——它们都计算参数向量和提供的输入向量之间的某种距离。他们都使用某种距离度量。应该补充的是，非线性神经网络和 SVM 使用非线性来全局弯曲和拉伸距离的概念（神经网络是通用逼近器，正如 Hornik 在 1989 年所证明和发表的）。

“无分布”分类器

ID3/C4.5 决策树、CART、直方图分类器、多项分类器——这些分类器不应用任何距离度量。它们的工作方式是所谓的非参数。话虽如此，它们基于计数分布- 因此二项式分布和多项式分布，非参数分类器受这些分布的统计数据支配。但是，由于唯一重要的是输入变量的观察值是否出现在特定的bin/interval 中，它们本质上对极端观察不敏感。当输入变量 bin 的间隔到最左边并且最右边是开放的。所以这些分类器肯定是模型健壮的。

噪声特征和异常值

极值是一种噪音。零均值附近的散点是实践中最常见的噪声类型。

这张图片展示了散射噪声（左）和椒盐噪声（右）。您的稳健性问题与右手噪声有关。

分析

我们可以将分类器输入的真实值、与散射噪声和异常值偏移量结合为 $i$ $z(i)$ $\epsilon$ $e$

$x(i) = z(i) + \epsilon + e \cdot \delta(\alpha)$

使用由参数控制的 Kronecker delta 函数。参数化的 delta 函数确定是否添加离群值偏移量。概率，而零均值散点始终存在。例如，如果，我们不再谈论异常值 - 它们成为常见的噪声附加偏移。另请注意，距离是概念离群值定义所固有的。在训练集中观察到的类标签本身不能受到异常值的影响，从所需的距离概念如下。 $\delta(\alpha)$ $\alpha$ $P(\delta(\alpha)=1) \ll 1$ $P(\delta(\alpha)=1) = \frac{1}{2}$

基于距离的分类器通常使用 L2-norm来计算拟合度。该规范非常适合散射噪声。当涉及到极值（异常值）时，它们的影响随着的幂的增加而增加，当然也随着的增加而增加。由于非参数分类器使用不同的标准来选择最佳参数集，因此它们对椒盐之类的极值噪声不敏感。 $\mid \mid {\bf x} \mid \mid_2$ $2$ $P(\delta(\alpha)=1)$

同样，分类器的类型决定了对异常值的鲁棒性。

过拟合

当分类器的参数变得“太丰富”时，就会出现过度拟合的问题。在这种情况下，学习会触发围绕训练集中错误标记案例的各种小循环。一旦将分类器应用于（新）测试集，就会看到较差的模型性能。这种过度泛化循环往往包括被散射噪声推过类边界的点。没有相似相邻点的异常值极不可能包含在这样的循环中。这是因为（基于距离的）分类器的局部刚性性质 - 并且因为紧密分组的点可以推动或拉动决策边界，这是一个观察本身无法做到的。 $\epsilon$

过度拟合通常发生在类之间，因为任何给定分类器的决策边界变得过于灵活。决策边界通常绘制在输入变量空间更拥挤的部分——而不是在孤立的异常值附近。

在分析了基于距离和非参数分类器的鲁棒性之后，可以建立具有过度拟合可能性的关系。与基于距离的分类器相比，非参数分类器对极端观察的模型鲁棒性预计会更好。由于基于距离的分类器中的极端观察，存在过度拟合的风险，而对于（稳健的）非参数分类器而言，情况并非如此。

对于基于距离的分类器，异常值将拉动或推动决策边界，请参阅上面对噪声特征的讨论。例如，判别分析容易产生非正态分布的数据——具有极端观察的数据。神经网络最终可能处于饱和状态，接近或（对于 sigmoid 激活函数）。此外，具有 sigmoid 函数的支持向量机对极值不太敏感，但它们仍然采用（局部）距离测量。 $0$ $1$

对于异常值最稳健的分类器是非参数分类器——决策树、直方图分类器和多项式分类器。

关于过度拟合的最后一点

如果没有停止标准，应用 ID3 构建决策树将过度概括模型构建。来自 ID3 的更深的子树将开始拟合训练数据 - 子树中的观察越少，过度拟合的机会就越高。限制参数空间可以防止过度概括。

基于距离的分类器也通过限制参数空间（即隐藏节点/层的数量或 SVM 中的正则化参数）来防止过度泛化。 $C$

回答您的问题

所以你的第一个问题的答案通常是否定的。对异常值的鲁棒性与一种分类器是否容易过度拟合是正交的。这个结论的一个例外是，如果一个异常值位于“光年”之外，并且它完全支配了距离函数。在这种非常罕见的情况下，稳健性会因极端观察而恶化。

至于你的第二个问题。具有良好限制参数空间的分类器倾向于从训练集更好地泛化到测试集。训练集中极端观察的比例决定了基于距离的分类器是否在训练期间误入歧途。对于非参数分类器，在模型性能开始衰减之前，极端观察的比例可能会大得多。因此，非参数分类器对异常值更加稳健。

同样对于您的第二个问题，分类器的基本假设决定了它是否对异常值敏感 - 而不是其参数空间的正则化程度。一个孤独的离群值“光年之外”是否可以主要确定训练期间使用的距离函数，这仍然是分类器灵活性之间的权力斗争。因此，我对您的第二个问题提出普遍否定的意见。

有很多因素会影响异常值，如果模型过度拟合，那么它会学习数据的具体细节，包括异常值等噪声数据点。但是，如果模型对异常值不鲁棒，则不一定是过度拟合，有些模型对异常值敏感。

根据维基百科关于引用的对立：

在逻辑和数学中，对立是指从条件陈述到其逻辑等价的对立式的推断，以及一种被称为对立证明的相关证明方法。 [1] 一个陈述的对立面有它的前件和后件倒置和翻转。例如，条件语句“如果在下雨，那么我穿上我的外套”的反义词就是“如果我不穿我的外套，那么它就没有下雨。”......对立律说当且仅当它的对立项为真时，条件语句为真。 [3]

所以，在稍微改写的问题上：一个模型不会比一个模型更容易过度拟合，是否必然暗示对异常值具有更高的鲁棒性，相反，因为“不多”是“等于或小于”：是否等于或小于稳健性？从一个容易过拟合的模型而不是一个没有的模型？

为了帮助回答，以最小绝对偏差回归为例，该回归以其稳健性而闻名。在估计单个参数的情况下也很奇怪，它减少到中值估计而不是平均值（由于它包含所有数据，因此非常容易受到异常值的影响）。因此，均值可以被视为“过度拟合”，但在样本中，由于大正值和负值的平衡，均值和中值可能接近。

根据“当且仅当标准”置于反对立面的真实性上，与不易于过度拟合的模型相比，模型的稳健性必然会降低，所以我的回答是否定的。

其它你可能感兴趣的问题

上一篇具有潜在趋势的 A/B 测试的配对与独立 t 检验下一篇截距和斜率之间的相关性是什么意思