与线性回归、数据转换相关的神话是什么?

机器算法验证 回归 分布 正态分布 数据转换
2022-01-20 02:46:06

我遇到了许多与线性回归(尤其是普通最小二乘回归)相关的假设,这些假设是不真实的或不必要的。例如:

  • 自变量必须服从高斯分布
  • 异常值是相应地高于或低于上或下胡须的点(使用箱线图术语)
  • 并且转换的唯一目的是使分布接近正态以适应模型。

我想知道关于线性回归的事实/假设通常被认为是什么神话,特别是关于相关的非线性变换和分布假设。 这些神话是如何产生的?

4个回答

有三个迷思困扰着我。

  1. 预测变量需要是正态的。

  2. 的合并/边际分布必须是正态的。Y

  3. 预测变量不应相关,如果是,则应删除一些。

我相信前两个来自误解 OLS 线性回归中关于正态性的标准假设,该假设假设由残差估计的误差项是正常的。似乎人们误解了这意味着所有值的合并/边际分布必须是正态的。Y

对于相关预测变量的神话,我有两个假设。

  1. 人们将有关误差项独立性的 Gauss-Markov 假设误解为预测变量是独立的。

  2. 人们认为他们可以通过更少的变量消除特征以获得强大的性能,从而减少过度拟合。

我理解为了在不牺牲特征空间中的大部分信息的情况下降低过度拟合风险而放弃预测变量的想法,但这似乎行不通。我在这里的帖子探讨了原因和进一步阅读的链接。

神话

线性回归模型只能模拟结果和解释变量之间的线性关系。y

事实

尽管名称如此,线性回归模型可以使用多项式、分数多项式、样条曲线和其他方法轻松适应非线性关系。线性回归中的术语“线性”与模型在参数中是线性的事实有关。对于关于模型的“线性”一词的深入解释,我强烈推荐这篇文章β0,β1,

@Dave 的回答非常好。这里还有一些神话。

  1. Y 的原始比例/变换是您应该在模型中使用的比例/变换。
  2. 中心极限定理意味着如果 N 相当大,您不必担心任何这些。
  3. 对 Y 尝试不同的变换不会扭曲标准误差、p 值或置信区间宽度。

误区:应该从多元回归中删除不“显着”的变量。

请参阅何时应该在回归中包含一个变量,尽管它在统计上不显着?进行讨论。然后在我们的网站上搜索“模型识别”、“正则化”、“套索”等。