机器算法验证 - 与线性回归、数据转换相关的神话是什么？ - 吾爱随笔录

机器算法验证回归分布正态分布数据转换

2022-01-20 02:46:06

我遇到了许多与线性回归（尤其是普通最小二乘回归）相关的假设，这些假设是不真实的或不必要的。例如：

我想知道关于线性回归的事实/假设通常被认为是什么神话，特别是关于相关的非线性变换和分布假设。 这些神话是如何产生的？

4个回答

有三个迷思困扰着我。

我相信前两个来自误解 OLS 线性回归中关于正态性的标准假设，该假设假设由残差估计的误差项是正常的。似乎人们误解了这意味着所有值的合并/边际分布必须是正态的。 $Y$

对于相关预测变量的神话，我有两个假设。

我理解为了在不牺牲特征空间中的大部分信息的情况下降低过度拟合风险而放弃预测变量的想法，但这似乎行不通。我在这里的帖子探讨了原因和进一步阅读的链接。

神话

线性回归模型只能模拟结果和解释变量之间的线性关系。 $y$

事实

尽管名称如此，线性回归模型可以使用多项式、分数多项式、样条曲线和其他方法轻松适应非线性关系。线性回归中的术语“线性”与模型在参数中是线性的事实有关。对于关于模型的“线性”一词的深入解释，我强烈推荐这篇文章。 $\beta_0, \beta_1, \ldots$

@Dave 的回答非常好。这里还有一些神话。

误区：应该从多元回归中删除不“显着”的变量。

请参阅何时应该在回归中包含一个变量，尽管它在统计上不显着？进行讨论。然后在我们的网站上搜索“模型识别”、“正则化”、“套索”等。

其它你可能感兴趣的问题