精度变量的目的是什么?

机器算法验证 多重回归 混杂
2022-03-28 01:53:41

为什么我们需要在回归模型中包含精度变量(即与结果相关但与感兴趣的预测变量无关的变量)?

3个回答

回归系数通常被描述为偏相关系数,这意味着在控制其他变量 Z 的影响后,它将显示特定变量 X 对结果变量 Y 的影响。

当你省略 Z 只留下 X 时会发生什么?X的系数会改变吗?

如果变量 Z 和 X 是正交的,这很少发生在实验数据之外,这些系数不会改变,但在其他情况下,您不能说 X 变量的系数仅衡量 X 对 Y 的变化的影响。

在计量经济学中,重要变量的遗漏称为遗漏变量偏差,它表明从 X 变量到 Y 的边际效应将不再在没有偏差的情况下进行估计。

建模的目标是找出所有相关变量并检查残差变化是否表现良好。

这是我对Anscombe 的四重奏的贡献。

下图显示了一些虚构数据的回归线。估计的回归线是, H_{0} 的t检验的p等于 0.002,为我的回归模型是 0.67(就像 Anscombe,1973 年的四张图一样)。y^i=3+.5xH0:β=0R2

y 在 x 上的回归线

这条回归/回归线表明,随着增加两个单位,增加一个单位。但是有一些问题:我省略了另一个解释的变量。第二个变量是二分的,表示第一组属于哪一组(上述分析结合了两组的数据)。我们可以将其建模为,其中xyyyi=β0+βxxi+βzzi+εiεN(0,σε)

y 在 x 和 z 上的回归

现在我们看到实际上,随着的增加,实际上会减小!这意味着我们的第一个模型不仅不正确,而且非常糟糕,因为无论一个是紫色还是橙色,都与成反比。在第一个模型 中,我们违反了没有缺失变量的假设,这就是为什么在我们的模型中包含协变量(你标记为“精度变量”的东西)很重要的原因。xyyx

精度变量将有助于减少标准误差,从而缩小您感兴趣的系数的置信区间,从而更容易找到您感兴趣的变量的显着影响。