为什么控制太多变量被认为是有害的?

机器算法验证 多重回归 过拟合 混杂
2022-02-10 08:49:41

我试图理解以下xkcd 漫画中第二个面板的要点:

https://t.co/EfTKCyvCFS

具体来说,如何通过控制模型中的太多混杂变量来误导人?

任何指向这种批评在文献中被称为什么的指针——所以我可以进一步研究它——将不胜感激。

4个回答

对于要控制的变量数量,没有所谓的“最佳位置”,以便对因果效应进行无偏估计。由于我们谈论的是混杂,我们必须牢记对特定变量因果效应的估计。您使用称为 DAG 的图形工具来绘制因果关系,然后以一组变量为条件,这些变量将为您产生因果效应。以变​​量为条件通常会阻止关联的流动,但以对撞机(共同效应)为条件将导致不存在因果关系的变量之间的关联。你条件的变量越多,你就越有可能以对撞机为条件,从而引发无因果关系的关联;那就是说,您以自己为条件的变量越多,也会阻止更多的后门路径,包括那些有对撞机的。这里的推理不应该围绕“有多少变量?” 但围绕“哪些变量?” 条件。

下面是一个示例,您想要不以任何条件为条件来估计 A 对 B 的直接因果效应。另一方面,以集合 {D} 或 {C,D} 为条件会偏向直接因果效应A 对 B 的影响,因为它以对撞机 D 为条件并打开后门路径。

在此处输入图像描述

这篇文章可以很好地介绍使用 DAG 进行因果推理。

我要指出三点:

(1)一般(与因果效应的估计有关)

通常你想用简约的模型来解释世界上的现象,包括从某些理论推导出来的变量。您可能只是将您想到的任何变量添加到回归模型中并最终得到几乎完美的拟合,但是您没有了解(甚至根本上扭曲)您真正感兴趣的关系(也就是因果/治疗效果) (另请参阅 @ColorStatistics 指向的 DAG)。(文献,例如:Judea Pearl 的“统计中的因果推理”)。

(2)具体(与过度指定的模型项更相关

您可以将不相关变量添加到回归模型中视为对真正为零的不相关变量的系数进行估计。然后,如果你这样做,我们的回归系数的估计量仍然是无偏的,但也是低效的,因为我们没有考虑对不相关变量的系数的(真正的)零限制。因此,推理仍然有效,但置信区间变得更宽。(文学:基本上任何计量经济学教科书,例如 Wooldrige)。

(3)另外(与预测有关)

如果您只对基于您的训练数据的模型的预测性能感兴趣,那么向您的模型添加“不相关”变量的危害较小(在没有因果关系的意义上不相关,也不是对系数具有真正的零限制)。因为只有在您想要进行推理(更广泛的置信区间)时,您的模型的过度规范才会成为问题(查看因果机器学习文献)。

嗯,它与 p-hacking 的概念有关。鉴于要在研究中添加足够数量的似是而非的混杂变量,有可能找到它们的组合以产生显着结果(您只需插入或退出,直到获得显着结果,然后报告这些结果)。

FiveThirtyEight 中有一篇非常好的帖子,因此您可以体验这个想法,甚至可以根据您希望“纠正”的变量获得相互矛盾的结果。

您正在寻找的术语是过度拟合维基百科有一个很好的解释。