为什么线性回归使用基于假设和输入数据点之间的垂直距离的成本函数？

机器算法验证回归线性的配件

2022-02-01 01:23:37

假设我们有输入（预测）和输出（响应）数据点 A、B、C、D、E，我们想要通过这些点拟合一条线。这是一个简单的问题来说明问题，但也可以扩展到更高的维度。

问题陈述

当前的最佳拟合或假设由上面的黑线表示。蓝色箭头 ( ) 表示数据点与当前最佳拟合之间的垂直距离，通过从该点绘制一条垂直线直到它与该线相交。 $\color{blue}\rightarrow$

绘制绿色箭头 ( ) 使其在交点处垂直于当前假设，因此表示数据点与当前假设之间的最小距离。对于点 A 和 B，绘制一条垂直于当前最佳猜测的线，并且类似于垂直于 x 轴的线。对于这两点，蓝线和绿线重叠，但 C、D 和 E 点不重叠。 $\color{green}\rightarrow$

在任何给定的训练周期，最小二乘原理通过在数据点（A、B、C、D 或 E）与估计假设（）之间画一条垂直线来定义线性回归的成本函数, 并表示为 $\color{blue}\rightarrow$

$Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2$

这里代表数据点，代表最佳拟合。 $(x_i, y_i)$ $h_\theta(x_i)$

点（A、B、C、D 或 E）之间的最小距离由从该点绘制到当前最佳猜测（绿色箭头）的垂直线表示。

最小二乘函数的目标是定义一个目标函数，该函数在最小化时会导致假设与所有组合点之间的距离最小，但不一定会最小化假设与单个输入点之间的距离。

问题

为什么我们不将线性回归的成本函数定义为输入数据点与通过输入数据点的假设（由垂直于假设的线定义）之间的最小距离，如 (）？ $\color{green}\rightarrow$

4个回答

当因变量（垂直误差）和自变量（水平误差）中都有噪声时，可以修改最小二乘目标函数以包含这些水平误差。如何对这两种类型的误差进行加权的问题。这种加权通常取决于两个误差的方差之比：

如果垂直误差的方差相对于水平误差的方差极大，则OLS是正确的。
如果水平误差的方差相对于垂直误差的方差非常大，则逆最小二乘法（其中上回归，的系数估计的倒数作为的估计）是合适的. $x$ $y$ $y$ $\beta$
如果垂直误差的方差与水平误差的方差之比等于因变量和自变量的方差之比，我们就有“对角线”回归的情况，其中一致的估计结果为是 OLS 和逆最小二乘估计量的几何平均值。
如果这些误差方差的比率是 1，那么我们就有“正交”回归的情况，其中沿着垂直于估计线的线测量的误差平方和被最小化。这就是你的想法。

在实践中，这个过程的一个很大的缺点是误差方差的比率通常是未知的，并且通常无法估计，因此前进的路径并不明确。

一个原因是相对容易计算和优化，而建议的成本有一个嵌套最小化问题，根据。

\sum_{i = 1}^{N} (y_{i} - h_{θ} (x_{i}))^{2}

$\sum_{i=1}^N(y_i-h_\theta(x_i))^2$

\sum_{i = 1}^{N} min_{x, y} [(y_{i} - h_{θ} (x))^{2} + (x_{i} - x)^{2}]

$\sum_{i=1}^N \min_{x,y}\big[(y_i-h_\theta(x))^2+(x_i-x)^2\big]$

h_{θ} (x)

$h_\theta(x)$

冒着平淡无奇的风险，错误函数的原因是标准解释是给定 x 并且试图最好地描述（或预测）y 分量。所以'x'没有错误。例如，您可能会尝试根据今天的收盘价来了解（或预测）明天股票的收盘价。同样，人们可以尝试根据今天的平均温度来了解明天的平均温度。显然，这些例子很简单，但这就是想法。顺便说一句，大多数人都没有意识到，但我认为从您的示例中可以清楚地看出，如果一个人将 y 与 x 进行回归，则回归线不必与 x 对 y 的回归有任何特别的相似之处。正交回归是回归的术语，其中人们试图找到使点与线的距离最小的线。例如，如果想了解 IBM 股票价格与 AAPL 股票价格之间的关系，那将是合适的方法。

过度简化的版本是假设 X 没有错误。因此，例如，如果您查看绘图中的点 E，则假定其 X 坐标非常准确。通常情况下，我们可以控制 X，换句话说，当我们可以将其设置为特定值时。在这种情况下，唯一可能存在的误差是 Y 方向，这就是误差/成本函数只包括 Y 方向的原因。

只要不是这种情况，只要我们不控制 X 并且 X 可能有误差，人们就会将 X 方向纳入误差函数中，称为 II 型或模型 II 回归及其变体。如果 X 和 Y 具有不同的尺度，那么执行此操作可能会很棘手，因此您必须考虑标准化等。

其它你可能感兴趣的问题

上一篇使用 glm() 代替简单的卡方检验下一篇Probit 两阶段最小二乘法 (2SLS)

为什么线性回归使用基于假设和输入数据点之间的垂直距离的成本函数？

**问题**

问题