具有与不具有多项式特征的线性回归

数据挖掘 线性回归
2022-02-25 09:34:43

我有一个概念性问题,为什么(除了处理能力/存储)你会只使用常规线性回归而不添加多项式特征?似乎添加多项式特征(没有过度拟合)总是会产生更好的结果。我知道线性回归不仅可以拟合一条线,但这只是在您决定添加多项式特征后才正确?我的经验是使用 sklearn 的库使用 python。

3个回答

奥卡姆剃刀原理[参考]

有两个假设,具有相同的经验风险(此处为训练错误),简短的解释(此处为参数较少的边界)往往比冗长的解释更有效。

因此,复杂性必须增加额外的可比精度。否则,我们应该使用简单模型

假设您有 50-50 的机会获得线性和非线性数据。使用您的方法,您最终将在 50% 的模型中使用正则化。首先,制作一个复杂的模型,然后对其进行正则化以使其简单。
总体而言,您将增加可能影响未来活动的复杂性,例如维护

可解释性
许多企业要求做出决策的原因,例如与信用卡相关的决策。线性回归将为您提供每个特征的简单解释

另外,请阅读这些 SE 答案

我们每天面对的大部分输入数据都是线性的,或者经过一些变换可以变成线性的。线性模型比较容易学习和推广。您可以拟合添加多项式特征,但如果您的数据是线性的,那么您的模型很可能会过拟合。因此,除非您确定您的数据不是线性的,否则您应该使用线性模型。如果线性模型效果不佳,那么您可以考虑添加多项式特征。

没有多项式特征的线性回归经常被使用。一个原因是您可以直接从估计的系数中看到某些特征的边际效应。

假设你有一个模型yi=β0+β1xi+ui,β0β1描述线性函数的截距和斜率。这通常用于获得关于如何xy(通常在多变量设置中,所以“很多”x)。有必要检查线性拟合是否是数据生成过程的“好的”近似值。

添加多项式特征 (x2,x3,...,xn) 通常有助于实现更好的拟合,但也会增加复杂性。当您想处理高度非线性的数据(线性近似不能很好地工作)时,您应该选择另一种模型,例如“广义加法模型”(GAM)。原因很简单,与线性回归相比,这些模型更灵活。线性回归是“参数”,这意味着您需要提出估计方程的(事前未知)函数形式。这不是其他技术所必需的,例如 GAM(如果您愿意,它们是“非参数的”)。

“简约法则”(又名奥卡姆剃刀,@Roshan Jha 指出)只是说您应该为给定要求选择最简单的解决方案。因此,如果您寻找“易于解释和理解”的解决方案和/或线性近似对您的数据效果很好,线性回归是一个很好的解决方案。否则,请寻找“适合”处理非线性或任何您的要求的解决方案。