数据挖掘 - 具有与不具有多项式特征的线性回归 - 吾爱随笔录

具有与不具有多项式特征的线性回归

数据挖掘线性回归

2022-02-25 09:34:43

我有一个概念性问题，为什么（除了处理能力/存储）你会只使用常规线性回归而不添加多项式特征？似乎添加多项式特征（没有过度拟合）总是会产生更好的结果。我知道线性回归不仅可以拟合一条线，但这只是在您决定添加多项式特征后才正确？我的经验是使用 sklearn 的库使用 python。

3个回答

奥卡姆剃刀原理[参考]：

有两个假设，具有相同的经验风险（此处为训练错误），简短的解释（此处为参数较少的边界）往往比冗长的解释更有效。

因此，复杂性必须增加额外的可比精度。否则，我们应该使用简单模型

假设您有 50-50 的机会获得线性和非线性数据。使用您的方法，您最终将在 50% 的模型中使用正则化。首先，制作一个复杂的模型，然后对其进行正则化以使其简单。
总体而言，您将增加可能影响未来活动的复杂性，例如维护

可解释性
许多企业要求做出决策的原因，例如与信用卡相关的决策。线性回归将为您提供每个特征的简单解释

另外，请阅读这些 SE 答案

我们每天面对的大部分输入数据都是线性的，或者经过一些变换可以变成线性的。线性模型比较容易学习和推广。您可以拟合添加多项式特征，但如果您的数据是线性的，那么您的模型很可能会过拟合。因此，除非您确定您的数据不是线性的，否则您应该使用线性模型。如果线性模型效果不佳，那么您可以考虑添加多项式特征。

没有多项式特征的线性回归经常被使用。一个原因是您可以直接从估计的系数中看到某些特征的边际效应。

假设你有一个模型 $y_i = \beta_0 + \beta_1 x_i + u_i$ , $\beta_0$ 和 $\beta_1$ 描述线性函数的截距和斜率。这通常用于获得关于如何 $x$ 与 $y$ （通常在多变量设置中，所以“很多” $x$ ）。有必要检查线性拟合是否是数据生成过程的“好的”近似值。

添加多项式特征 ( $x^2$ , $x^3$ ,..., $x^n$ ) 通常有助于实现更好的拟合，但也会增加复杂性。当您想处理高度非线性的数据（线性近似不能很好地工作）时，您应该选择另一种模型，例如“广义加法模型”（GAM）。原因很简单，与线性回归相比，这些模型更灵活。线性回归是“参数”，这意味着您需要提出估计方程的（事前未知）函数形式。这不是其他技术所必需的，例如 GAM（如果您愿意，它们是“非参数的”）。

“简约法则”（又名奥卡姆剃刀，@Roshan Jha 指出）只是说您应该为给定要求选择最简单的解决方案。因此，如果您寻找“易于解释和理解”的解决方案和/或线性近似对您的数据效果很好，线性回归是一个很好的解决方案。否则，请寻找“适合”处理非线性或任何您的要求的解决方案。

其它你可能感兴趣的问题

上一篇使用聚类可以考虑哪些类型？下一篇偏向特定数据子集的 SVM 算法