系数导致的线性回归误差

数据挖掘 回归 线性回归
2022-02-13 07:57:05

我试图解决一个悖论。假设我有一堆数据点并计算斜率和截距使得此外,我可以计算中的错误和中的错误。进一步假设真实模型是一条线,其中是一个正态分布的误差项,标准差为如果由于系数中的错误而计算计算值中的错误,我会得到{xi,yi}mby=mx+bmσmbσby=ax+c+ϵϵσerror2=σm2x2+σb2. 这个误差随着的增加而增加,这是一个非常奇怪的属性,因为 y 在任何给定点 x 的标准偏差是恒定的,即我错过了什么?这个悖论的解决方法是什么?xσ

更新:斜率的标准误差由,因此与 X 值的标准差成反比下降. 我想也许这解决了这个悖论。但是,x 和不受标准差的约束。所有的 x 值都可以在两个单位之内,但 x 可能是一千、百万、十亿或更多。σmσ2i(xix¯)2σmx¯

1个回答

中有一些固有的错误,假设您预测,其中是真实值,并且您可以的错误范围的大小。然后你得到:mm=m0+am0am

y=(m0+a)x+b=m0x+ax+b.

当您项会导致您的错误增加换句话说,您的预测线最终将无限远地远离真实线(可以通过绘制两条斜率略有不同的线来可视化)。axx±