除非总体效应完全为零,否则为什么样本足够大时统计量会显着?

机器算法验证 假设检验
2022-03-14 03:00:36

来自维基百科

给定足够大的样本量,除非总体效应量正好为零,否则统计比较将始终显示显着差异。

例如,如果样本大小为 1000,则样本 Pearson 相关系数 0.1 具有很强的统计显着性。如果 0.1 的相关性太小而无法在特定应用中引起关注,则仅报告此分析中的显着 p 值可能会产生误导.

我想知道为什么“给定足够大的样本量,除非总体效应大小正好为零,否则统计比较总是会显示出显着差异”?

谢谢并恭祝安康!

2个回答

随着样本量的增加,检测最小效应量的统计能力(见下文)也在增加,然后发现这些微小的效应量具有统计学意义,即使它们根本没有相关性。就像一个思想实验来进一步说明它:如果你可以将所有感兴趣的人都包括在一项研究中会怎样。从该完整“样本”计算的所有统计数据都将反映总体中的真实值,没有错误。因此,如果总体效应大小正好为 0,那么只有这样你才会发现它们正好为 0。否则,你会发现一些微小的差异或相关性,或者无论你的效应大小是什么。

在这种情况下,这篇文章也可能很有趣。

添加

我在Harvey Motulsky的书Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking中发现了统计能力的这个绝妙类比(该类比最初由John Hartung开发):

假设你让你的孩子到你的地下室去拿一个工具,比如一把锤子。孩子回来说:“锤子不在那儿。” 你的结论是什么?锤子在地下室吗?我们不能百分百确定,所以答案一定是概率。你真正想回答的问题是,“锤子在地下室的概率是多少?” 要回答这个问题,我们需要先验概率,因此需要贝叶斯统计。但我们可以问一个不同的问题,“如果锤子真的地下室,你的孩子找到它的机会有多大?” 很明显,答案取决于:

  • 您的孩子花了长时间寻找?这类似于样本量。孩子看的时间越长,找到锤子的可能性就越大。重要的是:即使锤子真的很小,如果孩子花了几个小时寻找,它很可能找到了锤子,尽管它很小。对于研究也是如此:样本量越大,可以检测到的效应量(“锤子”)越小。
  • 锤子有多大这类似于效果大小。大锤比小锤子更容易(即更快)找到。如果效应量大,则研究具有更大的效力。
  • 地下室有多脏?在井井有条的地下室比在凌乱的地下室更容易找到锤子。这类似于实验散射(变化)。当数据显示几乎没有变化时,一项研究具有更大的效力。

如果您的孩子必须在很短的时间内在凌乱的地下室中找到一把小锤子,这将很难。另一方面,如果您的孩子在整洁的地下室中花很长时间寻找大锤,那么您的孩子很有可能会发现(所以在让您的孩子寻找东西之前清理您的地下室!)。

具体而言,想象一个样本均值测试(大样本,在总体均值和方差存在的情况下,以使论点更简单一些)。

让真实均值和假设样本均值之间的差异为任何非零那么样本均值减去假设均值的采样分布本身将具有均值成比例缩小的方差δδ1/n

因此,当变得足够大时,检验统计量将在拒绝区域之外的概率下降。n

事实上,根据基于置信区间的测试来考虑它可能会有所帮助。总体平均值的置信区间的宽度将缩小为随着变得足够大,典型的 CI 越来越接近总体均值(当然,它仍然是一个随机变量),但保持不变。1nnδ

最终,置信区间的半宽度(“误差范围”)通常远小于 - 使假设的平均值“远离” - 典型 CI 的半宽度越来越多 - 与实际总体平均值(导致拒绝概率接近 1)δ

只要满足一些基本条件,您就可以为几乎任何零点的假设检验构造类似的论据(例如,如果您没有一致性,则论据将失败)。