在频率论推理中,我们想确定如果重复实现给定的随机过程,某事会发生的频率。这是 p 值、置信区间等理论的起点。然而,在许多应用项目中,“给定”过程并没有真正给出,统计学家必须至少做一些工作来指定和建模它。这可能是一个令人惊讶的模棱两可的问题,就像在这种情况下一样。
建模数据生成过程
根据所提供的信息,我们的最佳候选人似乎如下:
- 如果 100V 表读数为 100V,则工程师使用 1000V 表重新测量(如果它是可操作的)。否则,他只需标记 100V 并继续前进。
但这对我们的工程师是不是有点不公平?假设他是工程师而不仅仅是技术人员,他可能明白为什么当第一个电表读数为 100V 时他需要重新测量;这是因为仪表在其量程上限处饱和,因此不再可靠。所以也许工程师真正要做的是
- 如果 100V 表读数为 100,则工程师使用 1000V 表重新测量(如果它是可操作的)。否则,他只需标记 100V,附加一个加号以指示饱和测量值,然后继续。
这两个过程都与我们拥有的数据一致,但它们是不同的过程,它们会产生不同的置信区间。流程 2 是我们作为统计学家更喜欢的流程。如果电压通常远高于 100V,则过程 1 具有潜在的灾难性故障模式,其中测量值偶尔会被严重低估,因为数据在我们不知情的情况下被审查。置信区间将相应扩大。我们可以通过让工程师告诉我们他的 1000V 仪表何时不工作来缓解这种情况,但这实际上只是确保我们的数据符合流程 2 的另一种方式。
如果马已经离开谷仓并且我们无法确定测量值何时被删失,我们可以尝试从数据中推断出 1000V 仪表不工作的时间。通过在流程中引入推理规则,我们有效地创建了一个不同于流程 1 和 2 的新流程 1.5。我们的推理规则有时有效,有时无效,因此与流程 1 和流程 1 相比,流程 1.5 的置信区间在大小上是中等的2.
理论上,对于具有与三个不同的看似具有代表性的随机过程相关联的三个不同置信区间的单个统计量没有任何错误或可疑之处。在实践中,很少有统计消费者想要三个不同的置信区间。他们想要一个,基于实际发生的情况,如果实验被重复多次。因此,应用统计学家通常会考虑她在项目期间获得的领域知识,做出有根据的猜测,并给出与她猜测的过程相关的置信区间。或者她会与客户一起制定流程,这样就无需猜测下一步了。
如何应对新信息
尽管统计学家在故事中坚持,但频率论推理并不要求我们在获得新信息时重复测量,这表明生成随机过程并不完全符合我们最初的设想。但是,如果要重复该过程,我们确实需要确保所有重复都与置信区间假设的模型过程一致。我们可以通过改变流程或改变我们的模型来做到这一点。
如果我们更改流程,我们可能需要丢弃过去收集的与该流程不一致的数据。但这在这里不是问题,因为我们正在考虑的所有工艺变化只有在某些数据高于 100V 时才会有所不同,而这在这种情况下从未发生过。
无论我们做什么,模型和现实都必须保持一致。只有这样,理论上保证的常客错误率才会成为客户在重复执行该过程时实际得到的。
贝叶斯替代方案
另一方面,如果我们真正关心的是这个样本的真实均值的可能范围,我们应该完全抛开频率论,寻找出卖这个问题答案的人——贝叶斯主义者。如果我们走这条路,所有关于反事实的讨价还价都变得无关紧要。重要的是先验和可能性。作为这种简化的交换,我们失去了在“实验”的重复执行下保证错误率的任何希望。
为什么大惊小怪?
构建这个故事是为了让它看起来像常客统计学家无缘无故地对愚蠢的事情大惊小怪。老实说,谁在乎这些愚蠢的反事实?答案当然是每个人都应该关心。至关重要的科学领域目前正遭受严重的复制危机,这表明错误发现的频率远高于科学文献中的预期。这场危机的驱动因素之一,尽管不是唯一的,是p-hacking的兴起,即研究人员使用模型的许多变体,控制不同的变量,直到它们变得有意义。
P-hacking 在流行的科学媒体和博客圈中受到了广泛的诽谤,但很少有人真正了解 p-hacking 的问题以及原因。与流行的统计观点相反,在建模过程之前、期间和之后查看数据并没有错。错误在于没有报告探索性分析以及它们如何影响研究过程。只有通过查看整个过程,我们才能确定代表该过程的随机模型以及适合该模型的频率分析(如果有的话)。
声称某种常客分析是适当的是一个非常严肃的主张。做出这样的主张意味着您将自己束缚于您选择的随机过程的纪律,这需要一个关于您在不同情况下会做什么的反事实的整个系统。您必须实际遵守该系统才能使常客保证适用于您。很少有研究人员,特别是那些强调开放式探索的领域的研究人员,符合制度,他们不认真报告他们的偏差;这就是为什么我们现在面临复制危机。(一些受人尊敬的研究人员认为,这种期望是不切实际的,我对此表示同情,但这超出了本文的范围。)
我们批评发表的论文是基于声称如果数据不同他们会做什么,这似乎是不公平的。但这是频率论推理的(有点自相矛盾的)本质:如果你接受 p 值的概念,你必须尊重在替代数据下建模的合法性。(格尔曼和洛肯,2013 年)
在相对简单和/或标准化的研究中,例如临床试验,我们可以针对多重或顺序比较等因素进行调整,并保持理论错误率;在更复杂和探索性的研究中,频率论模型可能不适用,因为研究人员可能无法完全意识到正在做出的所有决定,更不用说明确记录和呈现它们了。在这种情况下,研究人员应该 (1) 对所做的事情诚实和坦率;(2) 提供带有强烈警告的 p 值,或者根本不提供;(3) 考虑提出其他证据,例如假设的先前合理性或后续复制研究。