机器算法验证 - 为什么偏斜数据不适合建模？ - 吾爱随笔录

为什么偏斜数据不适合建模？

机器算法验证造型偏度

2022-02-04 22:51:39

大多数时候，当人们谈论变量转换（对于预测变量和响应变量）时，他们会讨论处理数据偏度的方法（如对数转换、box 和 cox 转换等）。我无法理解的是为什么消除偏度被认为是一种常见的最佳实践？偏度如何影响各种模型（如基于树的模型、线性模型和非线性模型）的性能？什么样的模型更容易受到偏度的影响，为什么？

4个回答

消除偏度时，转换试图使数据集遵循高斯分布。原因很简单，如果数据集可以转换为在统计上足够接近高斯数据集，那么他们可以使用尽可能多的工具集。诸如 ANOVA、检验、检验和许多其他检验取决于具有恒定方差 ( ) 或遵循高斯分布的数据。¹ $t$ $F$ $\sigma^2$

有些模型更稳健¹（例如使用 Levine 检验而不是 Bartlett 检验），但大多数与其他分布配合良好的检验和模型要求您知道您正在使用的分布，并且通常只适用于单个分布也是。

引用NIST 工程统计手册：

在回归建模中，我们经常应用变换来实现以下两个目标：

以满足误差的方差同质性假设。

尽可能使拟合线性化。

需要一些谨慎和判断，因为这两个目标可能会发生冲突。我们通常首先尝试实现均匀方差，然后解决尝试线性化拟合的问题。

并且在另一个位置

涉及响应变量和单个自变量的模型具有以下形式：

$Y_{i} = f (X_{i}) + E_{i}$ $Y_i=f\left(X_i\right)+E_i$

其中是响应变量，是自变量，是线性或非线性拟合函数，是随机分量。对于一个好的模型，错误组件的行为应该像： $Y$ $X$ $f$ $E$

随机图纸（即独立）；

来自固定分布；

位置固定；和

有固定的变化。

此外，对于拟合模型，通常进一步假设固定分布是正态的，固定位置为零。对于一个好的模型，固定的变化应该尽可能小。拟合模型的一个必要组成部分是验证误差分量的这些假设，并评估误差分量的变化是否足够小。直方图、滞后图和正态概率图用于验证误差分量的固定分布、位置和变化假设。响应变量和预测值与自变量的关系图用于评估变异是否足够小。残差与自变量和预测值的图用于评估独立性假设。

根据上述假设评估拟合的有效性和质量是模型拟合过程中绝对重要的部分。如果没有足够的模型验证步骤，任何拟合都不应被认为是完整的。

（缩写）索赔引用：
- Breyfogle III，Forrest W.实施六西格码
- 皮兹德克，托马斯。六西格码手册
- Montgomery, Douglas C.统计质量控制简介
- 埃德。Cubberly，Willaim H 和 Bakerjan，Ramon。工具和制造工程师手册：桌面版

对于参数模型来说，这主要是正确的。正如 Tavrock 所说，具有不偏斜的响应变量可以使参数估计的高斯近似更好地工作，这是因为对称分布比偏斜分布收敛到高斯分布要快得多。这意味着，如果您有偏斜的数据，则转换它会使数据集更小，以便使用适当的置信区间和参数测试（预测区间仍然无效，因为即使您的数据现在是对称的，您也不能说这是正常的，只有参数估计会收敛到高斯）。

整个演讲是关于响应变量的条件分布，你可以说：关于错误。尽管如此，如果您有一个变量在查看他的无条件分布时似乎是偏斜的，那可能意味着它具有偏斜的条件分布。在你的数据上拟合一个模型会让你头脑清醒。

在决策树中，我首先要指出一件事：转换倾斜的解释变量没有意义，单调函数不会改变任何事情；这对线性模型很有用，但对决策树没有用。这就是说，CART 模型使用方差分析来执行 Spit，而方差对异常值和倾斜数据非常敏感，这就是转换响应变量可以显着提高模型准确性的原因。

什么时候有偏度是一件坏事？对称分布（通常但并非总是如此：例如，不是柯西分布）具有彼此非常接近的中值、众数和均值。所以考虑一下，如果我们要测量人口的位置，让中位数、众数和均值彼此接近是很有用的。

例如，如果我们取收入分配的对数，我们可以充分减少偏度，从而获得有用的收入位置模型。然而，我们仍然会有比我们真正想要的更重的右尾。为了进一步减少这种情况，我们可以使用帕累托分布。帕累托分布类似于数据的对数对数转换。现在，帕累托分布和对数正态分布在收入规模的低端都有困难。例如，两者都患有。这个问题的处理包含在功率变换中。 $\ln 0=-\infty$

从 www 窃取的 25 份收入（以公斤计）的示例。

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

第一列的偏度为 0.99，第二列的偏度为 -0.05。第一列不太可能正常（Shapiro-Wilk p=0.04），第二列不明显不正常（p=0.57）。

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

所以，问题是，如果你是一个随机的人，拥有列出的收入之一，你可能会赚到什么？是否可以得出这样的结论，即您的收入将达到 90k 或超过 84k 的中位数？或者是否更有可能得出这样的结论，即使是中位数作为位置度量也是有偏差的，并且为 76.7 k，小于中位数，作为估计也比较合理吗？ $\exp[\text{mean}\ln(k\$)]\text{ }$

显然，这里的对数正态模型是一个更好的模型，平均对数为我们提供了更好的位置度量。这是众所周知的，如果不能完全理解的话，可以用“我预计会得到 5 位数的薪水”这句话来说明。

我相信这在很大程度上是由于其良好的特性而恢复为高斯的传统的产物。

但是有很好的分布替代方案，例如包含许多不同倾斜分布形状和形式的广义 gamma

其它你可能感兴趣的问题

上一篇为什么二阶 SGD 收敛方法在深度学习中不受欢迎？下一篇PCA 双图上的四个轴是什么？