实际上,自变量中几乎总是存在测量误差,那么为什么几乎每个线性回归模型都忽略了这一点?

机器算法验证 回归 造型 测量误差 变量错误
2022-04-03 15:12:50

在绝大多数情况下,在实践中使用线性回归模型,而不是更复杂的变量误差模型。例如,考虑建模高度Y与重量X,或您自己选择的任何两个适当的连续变量 - 以下是教科书/文献中可以找到的典型示例:

Y=β0+β1X+ε.
据我所知,这对应于假设我们测量X没有错误,我们测量Y有错误。但是我们在测量时实际上总是有错误X. 在这种情况下是重量,但在大多数情况下,您会在教科书/文献中找到,自变量来自测量过程,因此会有一些测量误差。

  1. 所以当我们使用上面的模型来计算身高和体重时,是错误的ε,它明确地考虑了响应变量中的测量误差,也隐含地考虑了测量误差X? 因为实际上,正如我刚才提到的,自变量中通常总是存在测量误差。
  2. 如果ε没有隐含地考虑测量误差X,那么这种缺乏解释测量误差的原因是什么?X表现在从线性回归获得的结果中?由于这种线性回归模型几乎适用于任何地方,我们似乎是故意犯的错误,即没有考虑测量误差X不是那么糟糕吗?
  3. 最后,我读到当目标是预测时,变量中的误差对普通线性回归没有任何好处,这是为什么呢?
1个回答

X 中的错误因(1)权宜之计和(2)被忽略,因为如果您纠正此类错误,那么对于与训练数据中出现的错误程度相同的未来数据,预测将不适用。对 X 中的错误的校正使回归系数适当地远离零,但它们仅适用于未来校正的 X。我希望我对此有参考。可能需要进行模拟。