我经常从低 n 数据集(约 100 个观察值)运行回归。通常只有包含控制变量的结果才有意义。然而,我经常看到人们(总是有大量观察结果)声称已经“有或没有控制变量”运行他们的回归的期刊文章。
为什么人们经常在有控制变量和没有控制变量的情况下进行回归?
我经常从低 n 数据集(约 100 个观察值)运行回归。通常只有包含控制变量的结果才有意义。然而,我经常看到人们(总是有大量观察结果)声称已经“有或没有控制变量”运行他们的回归的期刊文章。
为什么人们经常在有控制变量和没有控制变量的情况下进行回归?
先谈一点条件。根据定义,控制变量在整个研究中保持不变,因此您不能在回归中使用它。您可能指的是应该统计控制的变量。例如协变量或阻断因子(如随机区组实验设计后)
人们对这些变量进行回归或方差分析,不仅是为了消除预测变量的影响,而且主要是为了检查他们自己的影响是否显着。如果它很重要,则完全有理由将它们包含在模型中。如果不是,最好将它们排除在模型之外。
这对于阻塞因子最为重要。如果您将它留在模型中,尽管它并不显着,您可能会由于误差项df的减少而错过预测变量的影响,-阻塞因子会降低 Error 及其df,并且出现竞争情况。预测变量的重要性可能会下降或上升,具体取决于“获胜者” - 其df下降的误差平方和的下降。这可能是人们有时更喜欢更简洁模型的原因。
造成这种情况的另一个原因可能是,对于 100 个中等样本,包含很多 IV,即使它们看起来都很重要或显着,也会导致过度拟合。
包含协变量的另一个原因是它们在文献中很重要。如果您可以证明某些在过去被发现有很大影响的协变量(无论是单独还是通过影响其他参数)在您的研究中没有大的影响,那么您已经发现了一些有趣的东西。
通常,这意味着存在结果和治疗变量的回归。然后,可以将其他控件添加到模型中——其他可能很重要的协变量。作者首先运行了一个仅包含治疗的简单模型。然后,他们检查他们的发现对包含其他变量的稳健性。特别是,他们询问包含其他协变量是否会减少或消除简单模型中估计的影响。
此外,包含其他协变量通常会减少标准误差。在这种情况下,作者可能会发现简单模型和包含控制的模型之间的估计影响相对相似,但只有在后者中估计显着(通常不同于 0)。然后作者将使用后一种模型进行推理(假设检验、置信区间),因为它的标准误差较小。
除了上面的答案之外,还有一些协变量选择技术涉及比较有和没有变量的模型。如果想说明添加协变量的效果,首先需要使用粗略(未调整的)模型作为参考。