为什么我们需要在回归模型中包含精度变量(即与结果相关但与感兴趣的预测变量无关的变量)?
精度变量的目的是什么?
机器算法验证
多重回归
混杂
2022-03-28 01:53:41
3个回答
回归系数通常被描述为偏相关系数,这意味着在控制其他变量 Z 的影响后,它将显示特定变量 X 对结果变量 Y 的影响。
当你省略 Z 只留下 X 时会发生什么?X的系数会改变吗?
如果变量 Z 和 X 是正交的,这很少发生在实验数据之外,这些系数不会改变,但在其他情况下,您不能说 X 变量的系数仅衡量 X 对 Y 的变化的影响。
在计量经济学中,重要变量的遗漏称为遗漏变量偏差,它表明从 X 变量到 Y 的边际效应将不再在没有偏差的情况下进行估计。
建模的目标是找出所有相关变量并检查残差变化是否表现良好。
这是我对Anscombe 的四重奏的贡献。
下图显示了一些虚构数据的回归线。估计的回归线是, H_{0} 的t检验的p值等于 0.002,为我的回归模型是 0.67(就像 Anscombe,1973 年的四张图一样)。
这条回归/回归线表明,随着增加两个单位,增加一个单位。但是有一些问题:我省略了另一个也解释的变量。第二个变量是二分的,表示第一组属于哪一组(上述分析结合了两组的数据)。我们可以将其建模为,其中。
现在我们看到实际上,随着的增加,实际上会减小!这意味着我们的第一个模型不仅不正确,而且非常糟糕,因为无论一个是紫色还是橙色,都与成反比。在第一个模型 中,我们违反了没有缺失变量的假设,这就是为什么在我们的模型中包含协变量(你标记为“精度变量”的东西)很重要的原因。
精度变量将有助于减少标准误差,从而缩小您感兴趣的系数的置信区间,从而更容易找到您感兴趣的变量的显着影响。
其它你可能感兴趣的问题

