机器算法验证 - 费舍尔的“获取更多数据”方法何时有意义？ - 吾爱随笔录

费舍尔的“获取更多数据”方法何时有意义？

机器算法验证假设检验 p 值直觉哲学的

2022-01-17 11:01:34

据称，一位研究人员曾经以“不显着”的结果与费舍尔接触，问他应该做什么，费舍尔说，“去获取更多数据”。

从 Neyman-Pearson 的角度来看，这是公然的 -hacking，但是否存在 Fisher 的 go-get-more-data 方法有意义的用例？ $p$

4个回答

频率论范式是费舍尔和内曼-皮尔逊观点的合并。只有在使用一种方法和另一种解释时才会出现问题。

收集更多数据是有问题的，任何人都应该觉得奇怪，因为更多的数据就是更多的证据。事实上，问题不在于收集更多数据，而在于使用值来决定这样做，而它也是感兴趣的衡量标准。如果您计算新值，则基于值收集更多数据只是黑客行为。 $p$ $p$ $p$ $p$

如果你没有足够的证据对研究问题做出令人满意的结论，那么无论如何，去获取更多的数据。但是，请承认您现在已经过了研究的 NHST 阶段，而是专注于量化感兴趣的影响。

有趣的一点是，贝叶斯主义者不会遇到这种困境。考虑以下示例：

如果常客得出没有显着差异的结论，然后转而进行等价检验，那么误报率肯定会增加；
贝叶斯可以同时表示最高密度区间和实际等效区域的差异，并且晚上睡觉时一样。

给定足够大的样本量，测试将始终显示显着的结果，除非真正的效应量正好为零，如此处所述。在实践中，真实的影响大小并不为零，因此收集更多数据最终将能够检测到最微小的差异。

费舍尔（IMO）的滑稽回答是对一个相对微不足道的问题的回应，该问题的前提是将“显着差异”与“实际相关差异”混为一谈。

这相当于一个研究人员走进我的办公室并询问“我称了这个标有‘25 克’的铅重量，它的重量是 25.0 克。我认为它被贴错了标签，我该怎么办？” 我可以回答：“获得更精确的比例。”

如果初始测试的能力严重不足，无法检测到实际相关的差异幅度，我相信 go-get-more-data 方法是合适的。

我们所说的 P-hacking 是多次应用显着性检验，并且只报告显着性结果。这是好是坏取决于情况。

为了解释，让我们考虑贝叶斯术语中的真实效果，而不是零假设和替代假设。只要我们相信我们感兴趣的影响来自连续分布，那么我们就知道原假设是错误的。但是，在双面测试的情况下，我们不知道它是阳性还是阴性。在这种情况下，我们可以将两侧检验的 p 值视为衡量我们的估计具有正确方向（即正面或负面影响）的证据有多强的量度。

在这种解释下，任何显着性检验都可能有三种可能的结果：我们看到足够的证据来推断效应的方向并且我们是正确的，我们看到足够的证据来推断效应的方向但我们错了，或者我们没有看到足够的证据来推断效果的方向。请注意，条件是您有足够的证据（即， $p < \alpha$ )，方向正确的概率应该大于方向错误的概率（除非你有一些非常疯狂、非常糟糕的测试），尽管随着真实效果大小接近于零，给定方向正确的条件概率充分证据接近 0.5。

现在，考虑当您继续返回以获取更多数据时会发生什么。每次获得更多数据时，在足够数据的情况下获得正确方向的概率只会上升。所以在这种情况下，我们应该意识到，通过获取更多的数据，虽然我们实际上是在增加 I 类错误的概率，但我们也在减少错误地得出错误方向的概率。

将此与更典型的 P-hacking 滥用形成对比；我们测试了 100 个很可能非常小的影响大小，并且只报告显着的影响大小。请注意，在这种情况下，如果所有影响都很小，当我们声明显着性时，我们有近 50% 的几率会弄错方向。

当然，从这个数据加倍下生成的 p 值仍然应该带有一点盐。虽然一般来说，人们收集更多数据以更确定效果大小不会有问题，但这可能会以其他方式被滥用。例如，一个聪明的 PI 可能会意识到，与其一次收集所有 100 个数据点，他们可以通过首先收集 50 个数据点、分析数据，然后收集接下来的 50 个（如果不重要）来节省一大笔钱并增加能力. 在这种情况下，它们增加了在声明重要性的条件下使效应方向错误的可能性，因为与 100 个数据点相比，它们更有可能在 50 个数据点时使效应方向出错。

最后，考虑当我们得到一个微不足道的结果时没有获得更多数据的影响。这意味着永远不会收集有关该主题的更多信息，这不会真正推动科学向前发展，不是吗？一项动力不足的研究会扼杀整个领域。

谢谢。这里有几件事要记住：

引用可能是杜撰的。
获取更多/更好的数据，或来自不同来源的数据（更精确的规模，参见@Underminer 的答案；不同的情况或控制；等等），进行第二次研究（参见，@Glen_b 的评论）是很合理的. 也就是说，您不会将附加数据与原始数据一起分析：假设您有 N=10 的结果不显着，您可以收集另一个 N=20 数据并单独分析它们（而不是一起测试全部 30 ）。如果这句话不是杜撰的，那可能就是费舍尔的想法。
费舍尔的科学哲学本质上是波普尔式的。也就是说，null 不一定是为了证实你的理论而敷衍地拒绝的东西，但理想情况下可能是你的理论本身，这样拒绝意味着你的宠物理论是错误的，你需要回到绘图板上。在这种情况下，I 型错误膨胀不会使研究人员受益。（另一方面，这种解释不利于费舍尔给出这个建议，除非他是个爱吵架的人，这不会不合时宜。）
无论如何，值得指出的是，我包含该评论的原因是它说明了两种方法性质差异的一些基本内容。

其它你可能感兴趣的问题

上一篇R中的列矩阵归一化下一篇Top-n准确率的定义是什么？