在创建模型时是否应该“保留”统计上不显着的协变量?

机器算法验证 回归 统计学意义 模型 安乔娃 常问问题
2022-02-08 12:59:57

在我的模型计算中,我有几个协变量,并不是所有的协变量都具有统计显着性。我应该删除那些不是吗?

这个问题讨论了这种现象,但没有回答我的问题: 如何解释协变量在 ANCOVA 中的非显着影响?

但是,该问题的答案中没有任何内容表明不显着的协变量被取出,所以现在我倾向于相信它们应该留在里面。甚至在阅读那个答案之前,我也是这么想的,因为协变量仍然可以解释一些方差(从而帮助模型),而不必解释超出某个阈值的量(显着性阈值,我认为它不适用于协变量)。

CV 上的某个地方还有另一个问题,其答案似乎暗示无论重要性如何都应保留协变量,但对此尚不清楚。(我想链接到那个问题,但我刚才无法再次找到它。)

那么......是否应该在模型的计算中保留未显示为具有统计显着性的协变量?(我已经编辑了这个问题,以澄清协变量永远不会出现在计算的模型输出中。)

更复杂的是,如果协变量对于数据的某些子集(必须单独处理的子集)具有统计显着性怎么办。我会默认保留这样的协变量,否则要么必须使用不同的模型,要么在其中一种情况下会丢失具有统计意义的协变量。但是,如果您也对此拆分案例有答案,请提及。

4个回答

你已经得到了几个很好的答案。有理由保留协变量,也有理由放弃协变量。在绝大多数情况下,统计显着性不应成为关键因素。

  1. 协变量可能具有如此实质性的重要性,以至于它们必须存在。
  2. 协变量的影响大小可能很高,即使它并不显着。
  3. 协变量可能会影响模型的其他方面。
  4. 协变量可能是您的假设措辞方式的一部分。

如果您处于非常探索性的模式并且协变量在文献中并不重要并且影响大小很小并且协变量对您的模型影响很小并且协变量不在您的假设中,那么您可能只是为了简单起见将其删除.

长答案是“是”。删除无关紧要的预测变量的理由很少,而不删除的理由也很多。就解释它们而言,您这样做会忽略值,就像您可能解释其他预测变量一样:对于预测变量的有趣范围内的效果具有置信区间。P

一个有用的见解是,从统计学上讲,协变量实际上并没有什么特别之处,请参见帮助将协变量写入回归公式顺便说一句,它可以解释为什么没有covariate标签。因此,这里和其他地方关于线性模型中非显着项的材料是相关的,正如众所周知的逐步回归批评者一样,即使没有明确提到 ANCOVA。

一般来说,仅根据重要性选择预测变量是个坏主意。如果由于某种原因您无法提前指定模型,您应该考虑其他方法,但如果您计划首先包含它们,相应地收集数据并且没有面临特定问题(例如共线性),请保留它们。

关于保留它们的原因,您提出的反对意见对我来说似乎是合理的。另一个原因是,去除不显着的预测变量会使基于模型的推论产生偏差。另一种看待这一切的方法是询问事后删除这些协变量会得到什么。

我们确实需要有关您的目标的更多信息来回答这个问题。回归主要用于两个目的:

  1. 预言
  2. 推理

预测是指您的目标是能够猜测样本中未包含的观察结果的结果变量的值(尽管它们通常在样本数据的范围内——否则,我们有时会使用“预测”这个词)。预测对于广告目的、财务等很有用。如果你只是对预测一些结果变量感兴趣,我几乎没有什么可以提供给你的。

推理是乐趣所在(即使它不是金钱所在)。推理是你试图对特定模型参数做出结论的地方——通常是为了确定一个变量对另一个变量的因果影响。尽管有普遍的看法,但回归分析永远不足以进行因果推理。您必须始终了解更多有关数据生成过程的信息,才能了解您的回归是否捕捉到了因果效应。从回归进行因果推断的关键问题是误差的条件均值(以回归量为条件)是否为零。这不能从回归变量的 p 值中得知。可以有无偏或一致的回归估计器,但这需要更多的努力,而不是仅仅将一些明显的控制投入回归并希望你得到重要的控制。掌握“度量标准:从因果关系到大多数无害的计量经济学的路径Mastering Metrics更容易阅读并且非常便宜,但请注意,它不是关于如何进行回归的处理,而是它们的含义。对于好的和坏的观察性研究设计的例子,我推荐大卫弗里德曼(David Freedman)(1991)的“统计模型和鞋革”,社会学方法论,第 21 卷(简短易读的引人入胜的例子)。

顺便说一句:在大多数大学课程中,对统计技术的痴迷而不是良好的研究设计是我的教学问题。

其次要激发这个问题的当前重要性:预测和推理之间的区别在于为什么大数据不能替代科学。