纽约时报关于滥用统计方法的文章

机器算法验证 假设检验 贝叶斯 媒体统计
2022-02-07 06:13:03

我指的是这篇文章:http ://www.nytimes.com/2011/01/11/science/11esp.html

考虑以下实验。假设有理由相信一枚硬币偏重于正面。在一项测试中,硬币在 1,000 次中出现正面 527 次。

这是硬币被加权的重要证据吗?

经典分析说是的。对于一枚公平的硬币,在 1,000 次翻转中获得 527 个或更多正面的机会小于 20 分之一,即 5%,这是传统的截止值。换句话说:该实验“以 95% 的置信度”找到了加权硬币的证据。

然而,许多统计学家并不买账。20 分之一是在 1,000 次投掷中获得超过 526 个正面的概率。即是翻转概率527、翻转概率528、529等的总和。

但实验并没有找到该范围内的所有数字;它只找到了一个——527。因此,这些专家说,计算得到那个数字——527——如果硬币被加权的概率更准确,并将它与如果硬币加权得到相同数字的概率进行比较。公平的。

统计学家 Paul Speckman 和心理学家 Jeff Rouder 提供了一个例子,他说,统计学家可以证明这个比率不能高于 4 比 1。

第一个问题:这对我来说是新的。有没有人可以找到确切计算的参考和/或您可以通过自己给我确切的计算来帮助我和/或您能指出我可以找到类似示例的一些材料吗?

贝叶斯设计了一种在新证据出现时更新假设概率的方法。

因此,在评估给定发现的强度时,贝叶斯(发音为 BAYZ-ee-un)分析结合了研究之外的已知概率(如果有)。

它可能被称为“是的,正确的”效应。如果一项研究发现金橘可以将患心脏病的风险降低 90%,一种治疗可以在一周内治愈酒精成瘾,敏感的父母生女孩的可能性是生男孩的两倍,那么贝叶斯反应与本地怀疑论者:是的,对。研究结果与世界上可观察到的情况进行权衡。

在至少一个医学领域——诊断筛查测试——研究人员已经使用已知概率来评估新发现。例如,一项新的测谎测试可能有 90% 的准确率,可以正确标记出 10 个说谎者中的 9 个。但如果将它提供给已知包括 10 个说谎者的 100 人,那么这个测试就不那么令人印象深刻了。

它正确识别了 10 个骗子中的 9 个,漏掉了一个;但它错误地将其他 90 个中的 9 个识别为撒谎。将所谓的真阳性 (9) 除以测试标记的总人数 (18) 得出的准确率为 50%。“假阳性”和“假阴性”取决于人口中的已知比率。

第二个问题:用这种方法,你如何准确判断一个新发现是否“真实”?并且:由于使用了一些预设的先验概率,这是否与 5% 障碍一样任意?

1个回答

我会详细回答第一个问题。

对于一枚公平的硬币,在 1,000 次翻转中获得 527 个或更多正面的机会小于 20 分之一,即 5%,这是传统的截止值。

对于一枚公平的硬币,1000 次试验中正面的数量遵循试验次数的二项分布n=1000和概率p=1/2. 那么得到超过 527 个正面的概率是

P(B(1000,1/2)>=527)

这可以用任何统计软件包来计算。R给了我们

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

因此,使用公平硬币,我们将获得超过 526 个正面的概率约为 0.047,接近文章中提到的 5% 截止。

以下声明

换句话说:该实验“以 95% 的置信度”找到了加权硬币的证据。

值得商榷。我不愿意这么说,因为 95% 的置信度可以用多种方式解释。

接下来我们转向

但实验并没有找到该范围内的所有数字;它只找到了一个——527。因此,这些专家说,计算得到那个数字——527——如果硬币被加权的概率更准确,并将它与如果硬币加权得到相同数字的概率进行比较。公平的。

这里我们比较两个事件B(1000,1/2)=527- 公平的硬币,和B(1000,p)=527——加权硬币。用公式代替这些事件的概率并注意到二项式系数抵消了我们得到

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

这是一个函数p,因此我们可以找到它的最小值或最大值。从文章中我们可以推断出我们需要最大值:

统计学家 Paul Speckman 和心理学家 Jeff Rouder 提供了一个例子,他说,统计学家可以证明这个比率不能高于 4 比 1。

为了使最大化更容易取比率的对数,计算关于的导数p并将其等同于零。解决方案将是

p=5271000.

例如,我们可以使用二阶导数检验来检查它是否真的是最大值代入我们得到的公式

(527/1000)527(473/1000)473(1/2)10004.3

所以比例是4.3:1,与文章一致。