为什么 OLS 估计涉及将点与线的垂直偏差而不是水平距离?
为什么是垂直距离?
机器算法验证
最小二乘
2022-03-14 19:06:26
3个回答
有趣的问题。我的回答是,当我们拟合 OLS 模型时,我们隐含地主要尝试预测/解释手头的因变量——“Y vs X”中的“Y”。因此,我们主要关心的是最小化我们的拟合线到关于结果的实际观察的距离,这意味着最小化垂直距离。这当然定义了残差。
此外,最小二乘公式比大多数其他竞争方法更容易推导,这可能是它首先出现的原因。:P
正如上面提到的“whuber”,在拟合最佳拟合线时,还有其他方法可以同等重视 X 和 Y。我知道的一种方法是“主线”或“主曲线”回归,它最小化点和线之间的正交距离(而不是垂直误差线,你有与拟合线成 90 度的线) . 我在下面发布了一份参考资料供您阅读。它很长,但非常容易理解和启发。
希望这会有所帮助,布伦登
- 特雷弗·哈斯蒂。主要曲线和曲面,博士论文,斯坦福大学;1984年
它也可能与设计的实验有关——如果 x 是作为实验设计一部分的受控量,则它被视为确定性的;而 y 是结果,是一个随机量。x 可能是一个连续量(例如某些药物的浓度),但可能是 0/1 拆分(导致 2 样本 t 检验,假设 y 是高斯分布)。如果 x 是一个连续量,则可能存在一些测量误差,但通常如果它远小于 y 的可变性,则将其忽略。
其它你可能感兴趣的问题