控制回归模型中的变量与控制研究设计中的变量有什么区别?

机器算法验证 回归 实验设计 控制变量
2022-03-27 20:14:11

我想在你的研究设计中控制一个变量比在你的回归模型中控制它更有效地减少错误。

有人介意正式解释这两个“控制”实例有何不同吗?它们在减少错误和产生更精确的预测方面相对有效吗?

1个回答

通过“控制研究设计中的变量”,我假设您的意思是使变量在所有研究单元中保持不变或操纵变量以便为每个研究单元独立设置该变量的水平。也就是说,控制研究设计中的变量意味着您正在进行真正的实验这样做的好处是它可以帮助推断因果关系

理论上,控制回归模型中的变量也有助于推断因果关系。但是,只有当您控制与响应有直接因果关系的每个变量时,才会出现这种情况。如果你忽略了这样一个变量(也许你不知道要包括它),并且它任何其他变量相关,那么你的因果推论将是有偏见的和不正确的。在实践中,我们并不知道所有相关变量,因此统计控制是一项相当冒险的工作,它依赖于您无法检查的大假设。

但是,您的问题是关于“减少错误并产生更精确的预测”,而不是推断因果关系。这是一个不同的问题。如果您要通过研究设计使给定变量保持不变,则由于该变量导致的所有响应变异性都将被消除。另一方面,如果您只是控制一个变量,您正在估计它的影响,该影响至少会受到抽样误差的影响。换句话说,从长远来看,统计控制在减少样本中的剩余方差方面不会那么好。

但是,如果您对减少错误和获得更精确的预测感兴趣,大概您主要关心的是样本外属性,而不是样本内的精度。这就是问题所在。当您通过以某种形式操纵变量(使其保持不变等)来控制变量时,您会创建一种比原始自然观察更加人为的情况。也就是说,与观察性研究相比,实验往往具有更少的外部有效性/普遍性。


如果不清楚,一个保持不变的真实实验的例子可能是使用基因相同的近交系小鼠评估小鼠模型中的治疗。另一方面,控制变量的一个例子可能是用虚拟代码表示疾病家族史,并将该变量包括在多元回归模型中(参见,一个“控制其他变量”究竟是如何进行的?,以及如何添加第二个 IV 可以使第一个 IV 显着吗?)。