不控制变量时的统计谬误?

机器算法验证 因果关系 混杂 谬论
2022-04-19 18:10:53

当有人说“你永远不会看到法拉利像本田一样生锈”时,逻辑上的缺陷是本田通常被用作度过严冬的日常驾驶者,而法拉利则是仅限于阳光明媚的周末使用的第二或第三辆车。

显然,您必须控制诸如里程和天气状况等变量。这个谬误有名字吗?逻辑谬误?基准利率谬误?被比较的组的差异?

4个回答

您可以将其称为省略的变量 bias,(尽管名称中没有“谬误”)。它是内生性的一种形式;与遗漏变量偏差/另一种形式的内生性密切相关的是生态谬误,其名称中确实包含“谬误”。

对于它的价值,我不确定您提出的声明(“您永远不会看到像本田那样生锈的法拉利”)是合理的谬论。它只是对经验观察的陈述(并且可能是正确的)。如果有人得出结论说 Farraris 不会像本田那样生锈,将是一个谬论。

据我所知,没有以混淆命名的“谬误”。但如果有人错误地提出了因果关系(如汽车品牌和生锈),我们称其为“虚假关系”。

这不是统计(关联)谬误,这是因果主张的逻辑谬误。让我们来看看这句话:“你永远不会看到法拉利像本田一样生锈”。从统计学上讲,这意味着在法拉利“群体”中观察到的生锈与在本田“群体”中观察到的生锈在某种程度上有所不同。这可能是真的,而且根本不是统计谬误。

当有人使用它来推断这种观察到的关联是由特定机制引起的时,这种谬误就会发挥作用,例如法拉利或本田的内在品质。因此,当您声称:“合乎逻辑的缺陷是,本田通常被用作度过严冬的日常驾驶员,而法拉利是仅限于阳光明媚的周末使用的第二或第三辆汽车”,您所做的是解释一种可能的因果机制,即也导致了这种关联,因此观察到的关联不能排除两种不同的因果模型。

因此,即使该关联在人群中是合法的,可能不合法的是对该关联的因果解释。这种从关联中推断出特定因果机制的逻辑谬误通常被称为“错误原因”。但是这个谬误只是古老的简单的“肯定结果”谬误——法拉利比本田更好的因果模型会产生观察到的关联。但是,由于关联是真实的,所以得出这样的结论是错误的,这种特定的因果模型是真实的。有几种竞争模型可以产生相同的观察到的关联,例如您对法拉利和本田如何具有不同使用模式的替代解释。

这种“虚假”关联可能出于多种原因出现,而不仅仅是未能“控制”变量。当由于一个共同的原因无法控制时,我们通常称之为“混杂偏差”。但是您实际上可以通过控制错误变量来创建非因果关联。如另一个答案所示,在下面的模型中,“控制”患者拥有的汽车类型会使效果估计产生偏差:

在此处输入图像描述

这通常称为“对撞机偏差”或“选择偏差”。由于对中介的控制,由于测量误差等,您也可能存在偏差。

根据控制变量和感兴趣变量之间的确切关系,您可以将其称为混杂中介