数据挖掘 - 系数导致的线性回归误差 - 吾爱随笔录

我试图解决一个悖论。假设我有一堆数据点并计算斜率和截距和使得。此外，我可以计算，中的错误和，中的错误。进一步假设真实模型是一条线，其中是一个正态分布的误差项，标准差为。如果由于系数中的错误而计算计算值中的错误，我会得到 $\{x_i,y_i\}$ $m$ $b$ $y=mx+b$ $m$ $\sigma_m$ $b$ $\sigma_b$ $y=ax+c +\epsilon$ $\epsilon$ $\sigma$ $error^2 = \sigma_m^2 x^2 +\sigma_b^2$ . 这个误差随着的增加而增加，这是一个非常奇怪的属性，因为 y 在任何给定点 x 的标准偏差是恒定的，即。我错过了什么？这个悖论的解决方法是什么？ $x$ $\sigma$

更新：斜率的标准误差由，因此与 X 值的标准差成反比下降. 我想也许这解决了这个悖论。但是，x 和不受标准差的约束。所有的 x 值都可以在两个单位之内，但 x 可能是一千、百万、十亿或更多。 $\sigma_m$ $\frac{\sigma^2}{\sum_i (x_i -\bar{x})^2}$ $\sigma_m$ $\bar{x}$