我可以使用线性回归来建模非线性函数吗?

数据挖掘 回归 线性回归
2022-02-24 04:29:57

我最近开始学习回归的基础知识,作为初学者,我从线性回归开始。

我读到这篇文章说,对于这种特殊类型的回归,自变量和因变量之间的关系必须是线性的,这对我来说意味着我只能用线性回归预测“线”: https ://www.analyticsvidhya.com /blog/2015/08/comprehensive-guide-regression/

但后来我开始想知道如何对“y = log(x)”或“y= sqrt(x)”或“y=exp(x)”或“y=tan(x)”等函数或其他非线性函数进行建模根据定义,它们不是“线”而是“曲线”。

然后我继续做研究,直到我发现这篇文章说应该是线性的不是自变量和因变量之间的关系,而是传递给模型的最终函数形式: https ://medium.freecodecamp.org/学习如何改进你的线性模型 8294bfa8a731

我想知道是否真的如此,是否总是可以在功能形式中进行这种“更改”?此外,如果可以对非线性函数使用线性回归,那么使用 R_square 度量来衡量模型的性能是否仍然正确?

谢谢你。

1个回答

你在问两个不同的问题:

  1. 什么是线性回归?

线性回归意味着,给定一个响应变量y和一组预测器xi,您假设(这是否正确是另一回事)将您的响应变量建模为

y(j)=i=1Nxi(j)βi+ϵ(j)
对于每个观察y(j), 在哪里ϵ(j)是一个期望值消失的误差项。该算法的目的是找到βi以最小化上述公式与响应的实际值之间的误差。

  1. 我可以使用线性回归来模拟非线性函数吗?

您可以使用线性回归来建模您想要的任何东西,这并不一定意味着结果会很合适。仅决定使用模型并不假设基础方程是否实际上由您选择的模型反映。在线性回归的情况下,您基本上是在逼近N维流形(所有真实点所属的地方)及其在平面上的投影。这是否是一个好主意,这取决于数据。

我想知道是否真的如此,是否总是可以在功能形式中进行这种“更改”?

通过使用这个或那个其他模型,您不会改变基础变量的函数形式。您只是在指定原始关系(您不知道)可以通过您选择的模型来近似。

使用 R_square 度量来衡量模型的性能是否仍然正确?

R2定义为模型的残差平方和与平均值的残差平方和之间的比率。基本上它告诉你的模型解释了多少数据的方差,而不是只用一条直线(对应于平均值)穿过你的所有数据点。