假设我们反复抛硬币,我们知道正面和反面的数量应该大致相等。当我们看到 10 次正面和 10 次反面总共 20 次抛掷的结果时,我们相信结果并倾向于相信硬币是公平的。
好吧,当您看到总共 20000 次抛掷的 10000 个正面和 10000 个反面的结果时,我实际上会质疑结果的有效性(实验者是否伪造了数据),因为我知道这比说结果更不可能10093 头和 9907 尾。
我的直觉背后的统计论据是什么?
假设我们反复抛硬币,我们知道正面和反面的数量应该大致相等。当我们看到 10 次正面和 10 次反面总共 20 次抛掷的结果时,我们相信结果并倾向于相信硬币是公平的。
好吧,当您看到总共 20000 次抛掷的 10000 个正面和 10000 个反面的结果时,我实际上会质疑结果的有效性(实验者是否伪造了数据),因为我知道这比说结果更不可能10093 头和 9907 尾。
我的直觉背后的统计论据是什么?
假设一个公平的硬币,10000 个正面和 10000 个反面的结果实际上比 10093 个正面和 9907 个反面的结果更有可能。
但是,当您说真正的实验者不太可能获得相同数量的正面和反面时,您是在隐含地援引贝叶斯定理。您对真实实验的先前信念是 Prob(20000 次投掷中的正面数 = 10000 | 鉴于实验者没有伪造)接近于 0。因此,当您看到“正面数 = 10000”的实际结果时,您的Prob 的后验(实验者没有伪造 | 观察到的 10000 个正面结果)也接近于 0。因此,您得出结论,实验者正在伪造数据。
我喜欢 Srikant 的解释,我认为贝叶斯思想可能是解决此类问题的最佳方法。但这里有另一种不用贝叶斯的方式来看待它:(在 R 中)
dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)
在我的系统上大约是 31.2。换句话说,即使在这两种情况下使用公平的硬币,在 20 人中看到 10 人的可能性比在 20,000 人中看到 10,000 人的可能性高 30 倍以上。随着样本量的增加,该比率无限制地增加。
这是一种似然比方法,但在我看来,这更像是贝叶斯判断。
主观主义的贝叶斯论证实际上是唯一的方法(从统计的角度来看)你可以理解你的直觉,这是 - 正确地说 -心理调查的主题,而不是统计调查的主题。然而,使用贝叶斯方法来辩称调查人员伪造了数据显然是不公平的,因此也是无效的。其逻辑是完全循环的:归结为“基于我对结果的先前信念,我发现你的结果令人难以置信,因此你一定作弊了。” 这种不合逻辑的自私自利的论点显然不会在法庭或同行评审过程中站得住脚。
相反,我们可以从罗纳德·费舍尔对孟德尔实验的批评中吸取教训,并进行正式的假设检验。当然,根据结果检验事后假设是无效的。但实验必须被复制才能被相信:这是科学方法的信条。因此,在看到一个我们认为可能是伪造的结果后,我们可以制定一个适当的假设来测试未来(或其他)结果。在这种情况下,关键区域将包含一组非常接近预期的结果。例如,在= 5% 的水平会将 9,996 到 10,004 之间的任何结果视为可疑结果,因为 (a) 此集合接近我们假设的“伪造”结果,并且 (b) 在没有伪造的零假设下(在法庭证明有罪之前是无辜的!) ,这个范围内的结果只有 5%(实际上是 5.07426%)发生的机会。此外,我们可以简单地将观察到的比例与预期比例之间的偏差平方,然后在单尾检验中调用Neyman -Pearson 引理低尾并将正态近似应用于二项分布。
虽然这样的测试不能证明是伪造的,但它可以应用于该实验者未来的报告,以评估他们声称的可信度,而不会仅基于你的直觉做出令人不快和无法支持的假设。 这比援引贝叶斯论证来暗示某人可能是完全无辜的,只是碰巧很不幸,他们得到了一个漂亮的实验结果,这要公平和严格得多!
我认为你的直觉是有缺陷的。您似乎在隐含地将单个“非常特殊”的结果(恰好 10000 个正面)与一组许多结果(所有接近 10000 个正面的“非特殊”数量)进行比较。然而,“特殊”的定义是基于我们心理的任意选择。二进制 10000000000000(十进制 8192)或 Hex ABC(十进制 2748)怎么样?正如 Joris Meys 评论的那样,贝叶斯论证对于任何数量的正面都基本相同,这意味着每个结果都是可疑的。
稍微扩展一下论点:您想测试一个假设(“实验者在伪造”),然后选择一个测试统计量(正面数量)。现在,这个检验统计量是否适合告诉你一些关于你的假设的事情?对我来说,选择的检验统计量似乎没有提供信息(不是假设中指定为固定值的参数的函数)。这又回到了你所说的“作弊”的意思。如果这意味着实验者随意控制硬币,那么这不会反映在测试统计中。我认为您需要更精确地找到可量化的指标,从而使问题适合进行统计测试。