为什么使用线性回归而不是平均 y per x

机器算法验证 回归
2022-03-26 21:43:24

具体来说,如果我们对根据房屋大小(平方米)预测房价(美元)感兴趣,我们可以计算出最佳拟合线并将其用于预测新值。

但是为什么不简单地计算每平方米的平均价格并将其用于我们的预测呢?我们也可以用它来绘制一条线,不是吗?

我只是对两者之间的区别感到有些困惑。

2个回答

这取决于您如何判断模型的质量。大多数人都会同意的一般方法是,一个好的预测模型可以最大限度地减少无法解释的部分或错误(预测值 - 观察值)。您可以定义一个模型来最大限度地减少总体错误。或者您可以定义一个模型来最小化平方误差的总和(ϵ^) 总体i=1Nϵ^i2Minimum. 最后一个版本是最小二乘法,如果满足所有假设,它将提出最佳线性无偏估计量(而不是例如您的均值比)。

基本上,以平方米为单位取房价平均值不会最大限度地减少您的预测误差,因为它无法容纳与每平方米平均房价的较大偏差。只有最小二乘法,即预测值减去观测值的所有平方偏差的最小总和,才能得出一条最适合您的数据云的线。

对于 R 中的一个最小示例,请考虑以下内容:

hp = c(500, 750, 800, 900, 1000, 1000, 1100)
sm = c(100, 120, 130, 130, 150, 160, 165)

房价 (hp) 和平方米 (sm)。

绘图时,您会得到一个图形,其中 sm 的增加与 hp 的增加密切相关

在此处输入图像描述

现在,您可以按照您的建议进行操作:

apsm = mean(hp/sm)

也就是说,您将 hp 除以其 sm 并取平均值以获得每平方米的平均值 (apsm)。

要预测房价,您可以获得预测值向量 pred (hp^)

pred = apsm*sm

您的预测线现在如下所示:

在此处输入图像描述

这条线的问题在于它不是最小化错误的线(hp-pred = error)。或者更准确地说,它不会最小化所有平方误差的总和。

如果您要使用例如运行线性模型。

lm(hp ~ sm)

您的拟合线(红色)会有所不同,并且会更有效且更公正:

在此处输入图像描述

有两个问题;第一个与潜在截距有关,第二个与均值的可变性有关。

如果模型应该通过原点(实际上,如果没有固定成本并且真实模型在整个范围内确实是线性的(与面积完全成比例),那么强制通过原点进行拟合可能是有意义的。

但是,如果影响价格的成本与面积不成比例,那么您可能需要截取。

在您选择将关系建模为通过原点的线的情况下,考虑比率的平均值 (ri=yi/xi) - 这取决于价格在这条线上的价差是否与房屋大小成正比(相当于与平均价格成正比):

价格与线穿过原点的区域的图,点差与均值成正比

如果是这种情况,那么取两个变量的对数应该会让您在斜率为 1 的直线上保持恒定分布:

对数价格与对数面积的关系图

- 如果是这种情况,那么平均比率可能有意义(尽管还有其他方法可以估计斜率 - 例如这些比率的几何平均值 - 有时可能是更好的选择)。如果价差与面积不成比例(/与预期价格成比例),那么这不是估计系数的最佳方法,通过原点进行某种形式的(可能加权)回归可能会更好