这部 xkcd 漫画(Frequentists vs. Bayesians)取笑了一位得出明显错误结果的常客统计学家。
然而,在我看来,他的推理实际上是正确的,因为它遵循标准的常客方法论。
所以我的问题是“他是否正确应用了频率论方法?”
- 如果不是:在这种情况下,正确的常客推论是什么?如何在频率论方法中整合关于太阳稳定性的“先验知识”?
- 如果是的话:wtf?;-)
这部 xkcd 漫画(Frequentists vs. Bayesians)取笑了一位得出明显错误结果的常客统计学家。
然而,在我看来,他的推理实际上是正确的,因为它遵循标准的常客方法论。
所以我的问题是“他是否正确应用了频率论方法?”
主要问题是第一个实验(太阳变新星)是不可重复的,这使得它非常不适合将概率解释为我们可以多次重复实验的事件发生频率的估计的频率论方法。相比之下,贝叶斯概率被解释为我们提供所有可用先验知识的信念程度,使其适用于关于一次性事件的常识推理。掷骰子实验是可重复的,但我发现任何常客都不太可能故意忽略第一个实验的影响,并对所得结果的重要性如此自信。
尽管作者似乎嘲笑常客对可重复实验的依赖以及他们对先验的不信任,将实验设置不适合常客方法论,但我想说这部漫画的真正主题不是常客方法论,而是对不合适的方法论的盲目追随。它是否有趣取决于你(对我来说是),但我认为它比澄清两种方法之间的差异更容易误导。
为什么这个结果看起来“错误”?贝叶斯主义者会说结果似乎违反直觉,因为我们对太阳何时会爆炸有“先前”的信念,而这台机器提供的证据不足以消除这些信念(主要是因为它的不确定性是由于抛硬币)。但是常客能够做出这样的评估,他必须在数据的背景下这样做,而不是信念。
悖论的真正根源在于执行的常客统计测试没有考虑所有可用数据。漫画中的分析没有问题,但结果似乎很奇怪,因为我们知道太阳很可能在很长一段时间内都不会爆炸。但是我们怎么知道呢?因为我们已经进行了可以限制太阳何时爆炸的测量、观察和模拟。因此,我们的全部知识应该考虑到这些测量和数据点。
在贝叶斯分析中,这是通过使用这些测量来构建先验来完成的(尽管将测量转换为先验的过程并没有明确定义:在某些时候必须有一个初始先验,否则它就是“乌龟所有向下的路”)。因此,当贝叶斯算法使用他的先验知识时,他实际上是在考虑很多频率论者的 p 值分析不知道的附加信息。
因此,为了保持平等,对问题的完整常客分析应该包括用于构建贝叶斯先验的关于太阳爆炸的相同附加数据。但是,频率论者不会使用先验,而是简单地扩展他用来合并其他测量的可能性,并且他的 p 值将使用该完全可能性来计算。
(机器说是 | 太阳爆炸了)*(关于太阳的所有其他数据 | 太阳爆炸了)
一个完整的常客分析很可能会表明,可能性的第二部分将更具约束性,并且将是 p 值计算的主要贡献(因为我们有大量关于太阳的信息,以及这些信息的错误很小(希望如此))。
实际上,人们不需要出去收集从过去 500 年获得的所有数据点来进行频率计算,人们可以将它们近似为一些简单的似然项,它对太阳是否爆炸的不确定性进行编码。然后这将变得类似于贝叶斯先验,但在哲学上略有不同,因为它是一种可能性,这意味着它编码了一些先前的测量(与先验相反,它编码了一些先验信念)。这个新术语将成为可能性的一部分,并将用于建立置信区间(或 p 值或其他),而不是贝叶斯先验,后者被整合以形成可信区间或后验。
据我所知,到目前为止,常客位是合理的:
假设是太阳没有爆炸的假设,而是太阳爆炸的假设。下观察结果(机器说“是”)的概率。假设机器正确检测到中微子不存在的存在,那么如果机器在下说“是”,那是因为机器在滚动两个 6 后对我们说谎。因此 p 值为 1/36,因此按照正常的准费舍尔科学实践,常客会在 95% 的显着性水平上拒绝原假设。
但是拒绝原假设并不意味着您有权接受备择假设,因此分析无法证明常客的结论是正确的。频率论假设检验体现了证伪主义的思想(有点),你不能证明任何事情都是真的,只能反驳。因此,如果要断言,则假设为真,并且仅在您可以证明与数据不一致时才继续。然而,这并不意味着是正确的,只是它在测试中幸存下来并作为一个可行的假设至少持续到下一个测试。
贝叶斯也只是常识,指出下注没有什么可失去的。我敢肯定,当考虑到假阳性和假阴性成本(Neyman-Peason?)时,常客方法会得出与长期收益方面的最佳策略相同的结论。
总结:常客和贝叶斯都在这里草率:常客盲目地遵循配方而不考虑适当的重要性水平、假阳性/假阴性成本或问题的物理性质(即不使用他的常识) . 贝叶斯人因为没有明确说明他的先验而草率,但再次使用常识,他使用的先验显然是正确的(机器在撒谎的可能性比太阳实际爆炸的可能性大得多),这种草率也许是可以原谅的。
我看到的最大问题是没有得出检验统计量。检验统计量值(包括贝叶斯统计学家对其提出的所有批评)定义为(假设对于较大的值拒绝空值,例如统计数据的情况)。如果您需要做出更重要的决定,您可以增加临界值并将拒绝区域进一步推高。使用低得多的阈值-价值观。相反,常客统计学家被困在网格上的大小测试。
当然,这种“频率论者”的方法是不科学的,因为结果很难重现。一旦太阳变成超新星,它就会保持超新星,所以探测器应该一遍又一遍地说“是”。但是,重复运行这台机器不太可能再次产生“是”结果。这在想要表现自己严谨并试图重现他们的实验结果的领域得到认可......据我所知,这种情况发生的概率在 5% 之间(发表原始论文是纯粹的 I 型错误)和在某些医学领域大约 30-40%。元分析人员可以为您提供更好的数字,这只是我不时通过统计小道消息传来的嗡嗡声。
从“正确的”常客的角度来看,另一个问题是掷骰子是最不强大的测试,功率 = 显着性水平(如果不是更低;5% 显着性水平的 2.7% 功率没什么可夸耀的)。用于 t 检验的 Neyman-Pearson 理论为证明这是一个 UMPT 而苦恼,并且许多高级统计理论(我几乎不理解,我不得不承认)致力于推导功率曲线并找到给定条件时的条件test 是给定类中最强大的一个。(致谢:@Dikran Marsupial 在其中一条评论中提到了权力问题。)
我不知道这是否给您带来困扰,但贝叶斯统计学家在这里显示为一个不懂数学并且有赌博问题的人。一个合适的贝叶斯统计学家会假设先验,讨论其客观程度,推导出后验,并证明他们从数据中学到了多少。这些都没有完成,所以贝叶斯过程被过度简化了,就像常客一样。
这种情况证明了癌症问题的经典筛查(我相信生物统计学家可以比我更好地描述它)。当使用不完善的仪器筛查罕见疾病时,大多数阳性结果都是假阳性。聪明的统计学家知道这一点,并且知道用更昂贵和更准确的活检来跟踪廉价和肮脏的筛查人员。