线性回归的线性模型

数据挖掘 机器学习 回归 线性回归
2022-02-28 02:20:45

我是机器学习的新手,我想学习的第一个概念是线性回归。我读到要应用线性回归,我需要使用线性模型。从这个假设开始,我知道这是一个简单的线性回归模型:

y = w0 + w1x 

线性回归的定义是说因变量 y 应该是参数 w 的线性组合(但自变量 x 不必相同)

所以我们可以说这也是一个线性回归模型:

y = w0 + w1x1 + w2(x2)^2

同样在这种情况下,我应该说这是一个线性回归模型,因为对于定义, w0 、 w1 和 w2 在表达式中仍然是线性的。即使自变量 x2 有一个二次项。

现在,我有这个问题。如下模型:

y = w1 x1 + w2 x2 + w3 x3 + w4 x1x2 + w5 (x2^3)

它仍然是线性模型吗?我的第一个答案是肯定的,因为对于定义,参数项是线性的,但我不确定。有没有人有任何提示?

3个回答

从理论上讲,您确实有一个线性模型,是的。

因变量和参数之间存在线性关系。您仍将经历执行线性回归的过程,通过一些回归量的线性组合来拟合通过点的线。但是,由于您手动插入了高阶回归量 () ,因此您有一个非线性方程。x1x2x2^3

一般来说,这足以称其为线性模型 - 请参阅此线程中的一些有用答案

一般来说,我不会说你最后有一个最严格y意义上的线性模型,因为你正在建模你的因变量和你的回归变量的非线性组合之间的线性关系: xx2x3,但也许可能有一个潜在的要观察的特征恰好等于x1x2,称之为x4,然后您将删除其中一个非线性协变量。最后的非线性项也是如此。

我不认为你的术语是正确的。您在谈论我们通常在机器学习中使用的 id 多项式回归。

以下是定义:

线性回归- 线性回归是一种对标量响应(或因变量)与一个或多个解释变量(或自变量)之间的关系进行建模的线性方法。一个解释变量的情况称为简单线性回归。对于多个解释变量,该过程称为多元线性回归。该术语不同于多元线性回归,其中预测多个相关的因变量,而不是单个标量变量。

多项式回归- 多项式回归是一种回归分析形式,其中自变量 x 和因变量 y 之间的关系被建模为 x 中的 n 次多项式。多项式回归拟合 x 的值与 y 的相应条件均值之间的非线性关系。

需要注意的一点是在线性回归中,它是自变量的组合。这个定义用于统计,所以我不知道我们是否在 ML 中使用了错误的术语。

是的,您提到的所有模型都是线性模型。线性模型的参数是线性的。

线性回归中的一个重要假设是您的参数不相关(注意:您的参数可能是相关的)。当你有像 x^2 和 x1x2 这样的术语时,你最终可能会得到高度相关的参数,这会产生诸如驱动显着系数微不足道的问题,因为相关参数的系数的方差会大大增加。这只是线性模型中具有相关参数的结果。