引用gung的好答案
据称,一位研究人员曾经以“不显着”的结果与费舍尔接触,问他应该做什么,费舍尔说,“去获取更多数据”。
从 Neyman-Pearson 的角度来看,这是公然的 -hacking,但是否存在 Fisher 的 go-get-more-data 方法有意义的用例?
引用gung的好答案
据称,一位研究人员曾经以“不显着”的结果与费舍尔接触,问他应该做什么,费舍尔说,“去获取更多数据”。
从 Neyman-Pearson 的角度来看,这是公然的 -hacking,但是否存在 Fisher 的 go-get-more-data 方法有意义的用例?
频率论范式是费舍尔和内曼-皮尔逊观点的合并。只有在使用一种方法和另一种解释时才会出现问题。
收集更多数据是有问题的,任何人都应该觉得奇怪,因为更多的数据就是更多的证据。事实上,问题不在于收集更多数据,而在于使用值来决定这样做,而它也是感兴趣的衡量标准。如果您计算新值,则基于值收集更多数据只是黑客行为。
如果你没有足够的证据对研究问题做出令人满意的结论,那么无论如何,去获取更多的数据。但是,请承认您现在已经过了研究的 NHST 阶段,而是专注于量化感兴趣的影响。
有趣的一点是,贝叶斯主义者不会遇到这种困境。考虑以下示例:
给定足够大的样本量,测试将始终显示显着的结果,除非真正的效应量正好为零,如此处所述。在实践中,真实的影响大小并不为零,因此收集更多数据最终将能够检测到最微小的差异。
费舍尔(IMO)的滑稽回答是对一个相对微不足道的问题的回应,该问题的前提是将“显着差异”与“实际相关差异”混为一谈。
这相当于一个研究人员走进我的办公室并询问“我称了这个标有‘25 克’的铅重量,它的重量是 25.0 克。我认为它被贴错了标签,我该怎么办?” 我可以回答:“获得更精确的比例。”
如果初始测试的能力严重不足,无法检测到实际相关的差异幅度,我相信 go-get-more-data 方法是合适的。
我们所说的 P-hacking 是多次应用显着性检验,并且只报告显着性结果。这是好是坏取决于情况。
为了解释,让我们考虑贝叶斯术语中的真实效果,而不是零假设和替代假设。只要我们相信我们感兴趣的影响来自连续分布,那么我们就知道原假设是错误的。但是,在双面测试的情况下,我们不知道它是阳性还是阴性。在这种情况下,我们可以将两侧检验的 p 值视为衡量我们的估计具有正确方向(即正面或负面影响)的证据有多强的量度。
在这种解释下,任何显着性检验都可能有三种可能的结果:我们看到足够的证据来推断效应的方向并且我们是正确的,我们看到足够的证据来推断效应的方向但我们错了,或者我们没有看到足够的证据来推断效果的方向。请注意,条件是您有足够的证据(即,),方向正确的概率应该大于方向错误的概率(除非你有一些非常疯狂、非常糟糕的测试),尽管随着真实效果大小接近于零,给定方向正确的条件概率充分证据接近 0.5。
现在,考虑当您继续返回以获取更多数据时会发生什么。每次获得更多数据时,在足够数据的情况下获得正确方向的概率只会上升。所以在这种情况下,我们应该意识到,通过获取更多的数据,虽然我们实际上是在增加 I 类错误的概率,但我们也在减少错误地得出错误方向的概率。
将此与更典型的 P-hacking 滥用形成对比;我们测试了 100 个很可能非常小的影响大小,并且只报告显着的影响大小。请注意,在这种情况下,如果所有影响都很小,当我们声明显着性时,我们有近 50% 的几率会弄错方向。
当然,从这个数据加倍下生成的 p 值仍然应该带有一点盐。虽然一般来说,人们收集更多数据以更确定效果大小不会有问题,但这可能会以其他方式被滥用。例如,一个聪明的 PI 可能会意识到,与其一次收集所有 100 个数据点,他们可以通过首先收集 50 个数据点、分析数据,然后收集接下来的 50 个(如果不重要)来节省一大笔钱并增加能力. 在这种情况下,它们增加了在声明重要性的条件下使效应方向错误的可能性,因为与 100 个数据点相比,它们更有可能在 50 个数据点时使效应方向出错。
最后,考虑当我们得到一个微不足道的结果时没有获得更多数据的影响。这意味着永远不会收集有关该主题的更多信息,这不会真正推动科学向前发展,不是吗?一项动力不足的研究会扼杀整个领域。
谢谢。这里有几件事要记住: