置信区间和概率——这句话的错误在哪里?

机器算法验证 可能性 统计学意义 置信区间 条件概率 哲学的
2022-02-27 23:31:25

如果有人发表如下声明:

“总体而言,与未接触烟雾的非吸烟者相比,接触环境烟雾的非吸烟者患冠心病的相对风险为 1.25(95% 置信区间,1.17 至 1.32)。”

整个人群的相对风险是多少?有多少事情与冠心病有关?在可以测试的大量事物中,实际上与冠心病有关的东西很少,因此随机选择的任何特定事物与之相关的可能性微乎其微。因此,我们可以说总体的相对风险为 1。但引用的区间不包含值 1。所以要么这两个事物之间实际上存在联系,其概率非常小,要么这是其中之一不包含参数的 5% 的区间。由于后者比前者更有可能,这是我们应该假设的。因此,适当的结论是该数据集几乎可以肯定是非典型人群,因此不能暗示任何联系。

当然,如果假设超过 5% 的事物与冠心病有关,那么统计数据中可能有一些证据支持环境烟雾是其中之一的说法。常识表明这不太可能。

他们的推理有什么错误(因为所有卫生组织都同意有大量关于二手烟的破坏性影响的文献)?是不是因为他们的前提是“可以检测的东西很多,真正与冠心病有关的东西很少”?这句话可能适用于任何随机选择的因素(即一个人拥有多少只具有冠状动脉疾病风险的狗),但二手吸烟和冠心病的先验概率远高于“任何随机因素” .

这是正确的推理吗?或者还有别的什么?

4个回答

这里有很多问题。正如@Néstor 解释的那样,他隐含地假设了 $H_0$(无链接)和 $H_1$(链接)的先验概率。H0 (no link) and H1 (link).

他将非常高的权重(非常接近 1)放在 $H_0$ 上,而将非常小的权重放在 $H_1$ 上。这是他做的第一个可疑的事情,因为烟雾和心脏病之间存在机械联系(考虑积极的吸烟者),问题真的是暴露是否足够。这甚至不考虑以前所做的研究。所以它真的不是像穿红袜子那样需要测试的“大量事物”之一。这意味着他已经从一个高度偏颇且不合理的先验开始。H0 and a very small weight on H1. This is the first dubious thing he does, since there is a mechanistic link between smoke and heart disease (consider active smokers), the question really is if the exposure is enough. This does not even consider the previous studies done. So it's really not one of a "vast number of things" to be tested as wearing red socks for example would be. This means he already starts with a highly biased and not really justifiable prior.

然后他更新了他的先验,指出获得不包含真实值的 95% 置信区间的概率为 5%。虽然这是真的,但这不是在零假设假设下获得特定区间的机会请注意,他会将 [1.17, 1.32] 的置信区间与 [100, 200] 的置信区间完全相同,这显然是有问题的。

这对贝叶斯方法非常重要:虽然在假设 1 为零的情况下,您有 5% 的总概率没有得到包含 1 的区间,但得到该特定区间的概率密度是不同的(并且更小)。

第三个错误是他从未指定他的先验,也没有说明 $H_0$ 与 $H_1$ 的可能性有多大才能获得该结果。它只是“微乎其微”。H0 has to be versus H1 for him to get that result. It's just "vanishingly small".

第四个错误是说要采取的适当行动是忽略数据。请注意,他的结果甚至不依赖于数据,他的论点暗示对任何数据都将执行完全相同的操作。如果您发现一个有趣的链接但怀疑它可能只是侥幸,那么正确的科学做法是尝试复制您的结果!

这是一个与假设检验相关的非常有趣的哲学问题(因此在常客环境中也是置信区间,正如我在这里解释的那样)。

当然,有很多假设可以研究——被动吸烟会导致冠心病,饮酒会导致冠心病,养狗会导致冠心病,摩羯座会导致冠心病……

如果我们随机选择所有这些假设之一,我们选择一个恰好为真的假设的概率几乎为零。这似乎是引用文本中的论点——我们碰巧检验了一个真实的假设是不太可能的。

但这个假设不是随机选择的。它的动机是先前关于冠心病的流行病学和医学知识。有一些理论机制可以解释吸烟如何导致冠心病,因此认为这些机制也适用于被动吸烟似乎并不牵强。

引用中的批评可能适用于为假设挖掘数据集的探索性研究。这就是我们不接受这样的“发现”作为事实的原因——相反,我们要求结果可以在新的研究中被复制。无论哪种方式,引用中引用的论文都是元研究,因此不受此问题的影响。

在过去的几个世纪里,我们已经从经验上看到,通过将预测结果与观察到的结果进行比较来检验由理论驱动的假设是有效的。我们相信这个程序的事实是我们在医学、工程和科学方面取得如此大进步的原因。这就是我可以在我的电脑上写这个并且你可以在你的电脑上阅读它的原因。争论这个程序是错误的就是争论科学方法从根本上是有缺陷的——我们有大量的证据表明事实并非如此。

我怀疑,一个不愿意接受这种证据的人实际上会接受什么……

我真的不明白为什么作者说仅基于置信区间的分析,冠心病的相对风险为 1 的概率可能非常小;这是完全错误的。对我来说,看起来他使用的是常客设置,但他是在贝叶斯推理(这很常见)。

唯一与 CI 相关的是经典显着性检验,但众所周知,如果 $H_0:$ {二手烟与冠心病之间没有联系},它们会给你 $p(D_e|H_0)$ (其中 $D_e$ 表示“数据至少与我们观察到的一样极端”),而不是 $p(H_0|D)$(其中 $D$ 是数据),这是他所声称的,以及与你指出;您必须结合有关该特定链接的先验知识!这是因为:$$p(H_0|D)\propto p(D|H_0)p(H_0),$$ by Bayes Theorem,其中 $p(H_0)$ 是 $H_0$ 上的先验概率。H0: { p(De|H0) (where De denotes "data at least as extreme as what we observed"), not p(H0|D) (where D is the data), which is what he claims, and what is linked exactly to what you point out; you have to incorporate prior knowledge about that particular link! This comes from the fact that:

p(H0|D)p(D|H0)p(H0),
by Bayes Theorem, where p(H0) is the prior probability on H0.

虽然这种贝叶斯推理路线有一些东西(Erik 彻底解构了!),而且确实这种思维路线可以解释为什么许多医学发现不能被复制,但这个特殊的论点像大锤一样应用这种思维。

作者在没有提供证据的情况下假设了两件事:吸烟是随机选择的,世界上几乎没有东西会导致心脏病。在这些松散的推理标准下,作者可以拒绝任何导致心脏病的结论。您需要做的就是断言:

  1. 该假设是随机选择的,并且
  2. 这种心脏病的原因非常接近于零。

这两个断言都值得商榷(而且,根据我的一般知识,很可能是错误的)。但是,有了这些假设,即使观察到 100% 接触二手烟的人在一年内死于心脏病发作,你也可以断言这种联系只是与隐藏的、单一的、“真实”原因的巧合相关.