费舍尔的“获取更多数据”方法何时有意义?

机器算法验证 假设检验 p 值 直觉 哲学的
2022-01-17 11:01:34

引用gung的好答案

据称,一位研究人员曾经以“不显着”的结果与费舍尔接触,问他应该做什么,费舍尔说,“去获取更多数据”。

从 Neyman-Pearson 的角度来看,这是公然的 -hacking,但是否存在 Fisher 的 go-get-more-data 方法有意义的用例?p

4个回答

频率论范式是费舍尔和内曼-皮尔逊观点的合并。只有在使用一种方法和另一种解释时才会出现问题。

收集更多数据是有问题的,任何人都应该觉得奇怪,因为更多的数据就是更多的证据。事实上,问题不在于收集更多数据,而在于使用值来决定这样做,而它也是感兴趣的衡量标准。如果您计算新值,则基于值收集更多数据只是黑客行为。pppp

如果你没有足够的证据对研究问题做出令人满意的结论,那么无论如何,去获取更多的数据。但是,请承认您现在已经过了研究的 NHST 阶段,而是专注于量化感兴趣的影响。


有趣的一点是,贝叶斯主义者不会遇到这种困境。考虑以下示例:

  • 如果常客得出没有显着差异的结论,然后转而进行等价检验,那么误报率肯定会增加;
  • 贝叶斯可以同时表示最高密度区间和实际等效区域的差异,并且晚上睡觉时一样。

给定足够大的样本量,测试将始终显示显着的结果,除非真正的效应量正好为零,如此所述。在实践中,真实的影响大小并不为零,因此收集更多数据最终将能够检测到最微小的差异。

费舍尔(IMO)的滑稽回答是对一个相对微不足道的问题的回应,该问题的前提是将“显着差异”与“实际相关差异”混为一谈。

这相当于一个研究人员走进我的办公室并询问“我称了这个标有‘25 克’的铅重量,它的重量是 25.0 克。我认为它被贴错了标签,我该怎么办?” 我可以回答:“获得更精确的比例。”

如果初始测试的能力严重不足,无法检测到实际相关的差异幅度,我相信 go-get-more-data 方法是合适的。

我们所说的 P-hacking 是多次应用显着性检验,并且只报告显着性结果。这是好是坏取决于情况。

为了解释,让我们考虑贝叶斯术语中的真实效果,而不是零假设和替代假设。只要我们相信我们感兴趣的影响来自连续分布,那么我们就知道原假设是错误的。但是,在双面测试的情况下,我们不知道它是阳性还是阴性。在这种情况下,我们可以将两侧检验的 p 值视为衡量我们的估计具有正确方向(即正面或负面影响)的证据有多强的量度。

在这种解释下,任何显着性检验都可能有三种可能的结果:我们看到足够的证据来推断效应的方向并且我们是正确的,我们看到足够的证据来推断效应的方向但我们错了,或者我们没有看到足够的证据来推断效果的方向。请注意,条件是您有足够的证据(即,p<α),方向正确的概率应该大于方向错误的概率(除非你有一些非常疯狂、非常糟糕的测试),尽管随着真实效果大小接近于零,给定方向正确的条件概率充分证据接近 0.5。

现在,考虑当您继续返回以获取更多数据时会发生什么。每次获得更多数据时,在足够数据的情况下获得正确方向的概率只会上升。所以在这种情况下,我们应该意识到,通过获取更多的数据,虽然我们实际上是在增加 I 类错误的概率,但我们也在减少错误地得出错误方向的概率。

将此与更典型的 P-hacking 滥用形成对比;我们测试了 100 个很可能非常小的影响大小,并且只报告显着的影响大小。请注意,在这种情况下,如果所有影响都很小,当我们声明显着性时,我们有近 50% 的几率会弄错方向。

当然,从这个数据加倍下生成的 p 值仍然应该带有一点盐。虽然一般来说,人们收集更多数据以更确定效果大小不会有问题,但这可能会以其他方式被滥用。例如,一个聪明的 PI 可能会意识到,与其一次收集所有 100 个数据点,他们可以通过首先收集 50 个数据点、分析数据,然后收集接下来的 50 个(如果不重要)来节省一大笔钱增加能力. 在这种情况下,它们增加了在声明重要性的条件下使效应方向错误的可能性,因为与 100 个数据点相比,它们更有可能在 50 个数据点时使效应方向出错。

最后,考虑当我们得到一个微不足道的结果时没有获得更多数据的影响。这意味着永远不会收集有关该主题的更多信息,这不会真正推动科学向前发展,不是吗?一项动力不足的研究会扼杀整个领域。

谢谢。这里有几件事要记住:

  1. 引用可能是杜撰的。
  2. 获取更多/更好的数据,或来自不同来源的数据(更精确的规模,参见@Underminer 的答案;不同的情况或控制;等等),进行第二次研究(参见,@Glen_b 的评论)是很合理的. 也就是说,您不会将附加数据与原始数据一起分析:假设您有 N=10 的结果不显着,您可以收集另一个 N=20 数据并单独分析它们(而不是一起测试全部 30 )。如果这句话不是杜撰的,那可能就是费舍尔的想法。
  3. 费舍尔的科学哲学本质上是波普尔式的。也就是说,null 不一定是为了证实你的理论而敷衍地拒绝的东西,但理想情况下可能是你的理论本身,这样拒绝意味着你的宠物理论是错误的,你需要回到绘图板上。在这种情况下,I 型错误膨胀不会使研究人员受益。(另一方面,这种解释不利于费舍尔给出这个建议,除非他是个爱吵架的人,这不会不合时宜。)
  4. 无论如何,值得指出的是,我包含该评论的原因是它说明了两种方法性质差异的一些基本内容。