在Amstat News最近的一篇文章中,作者(Mark van der Laan 和 Sherri Rose)表示:“我们知道,对于足够大的样本量,每项研究——包括那些无效假设为真的研究——都将宣布具有统计学意义的影响。”。
好吧,我一个人不知道。这是真的?这是否意味着假设检验对于大型数据集毫无价值?
在Amstat News最近的一篇文章中,作者(Mark van der Laan 和 Sherri Rose)表示:“我们知道,对于足够大的样本量,每项研究——包括那些无效假设为真的研究——都将宣布具有统计学意义的影响。”。
好吧,我一个人不知道。这是真的?这是否意味着假设检验对于大型数据集毫无价值?
这不是真的。如果原假设为真,那么在大样本量下它不会比小样本量更频繁地被拒绝。错误拒绝率通常设置为 0.05 (alpha),但它与样本量无关。因此,从字面上看,该陈述是错误的。然而,在某些情况下(甚至整个字段)可能所有空值都是错误的,因此如果 N 足够高,所有空值都将被拒绝。但这是一件坏事吗?
事实是,在样本量非常大的情况下,可以发现微小的影响是“显着的”。这并不意味着您不应该拥有如此大的样本量。这意味着您解释您的发现的方式取决于测试的效果大小和灵敏度。如果你有一个非常小的效应量和高度敏感的测试,你必须认识到统计上显着的发现可能没有意义或有用。
鉴于有些人不相信对原假设的检验,当原假设为真时,错误率总是等于为任何样本量选择的截止点,这里有一个简单的模拟来R
证明这一点。使 N 尽可能大,I 类错误的发生率将保持不变。
# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000
ps <- replicate(nsamp, {
#population mean = 0, sd = 1 for both samples, therefore, no real effect
y1 <- rnorm(n, 0, 1)
y2 <- rnorm(n, 0, 1)
tt <- t.test(y1, y2, var.equal = TRUE)
tt$p.value
})
sum(ps < .05) / nsamp
# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.
我同意已经出现的答案,但想补充一点,也许问题可以被重定向。是否检验一个假设是一个研究问题,至少在一般情况下,应该独立于一个人拥有多少数据。如果你真的需要检验一个假设,那就去做吧,不要害怕你发现小影响的能力。但首先要问这是否是你研究目标的一部分。
现在有一些小问题:
一些零假设在构造上是绝对正确的。例如,当您测试一个伪随机数生成器的等分布时,并且 PRG 是真正等分布的(这将是一个数学定理),则 null 成立。可能你们中的大多数人可以想到更多有趣的真实世界例子,这些例子来自随机化的实验,其中治疗确实没有效果。(我会举出关于 esp 的全部文献作为例子。;-)
在针对“复合”替代测试“简单”空值的情况下,如在经典 t 检验或 z 检验中,它通常采用与检测效果大小. 在任何研究中都有一个实际的上限,这意味着可检测的效应大小有一个实际的下限。所以,作为一个理论上的问题,der Laan 和 Rose 是正确的,但我们应该注意应用他们的结论。
假设检验传统上侧重于 p 值以在 alpha 小于 0.05 时得出统计显着性,这是一个主要弱点。而且,如果样本量足够大,任何实验最终都可以拒绝零假设,并检测出具有统计学意义的微小差异。
这就是制药公司组织临床试验以通过非常大的样本获得 FDA 批准的原因。大样本会将标准误差降低到接近于零。这反过来会人为地提高 t stat 并相应地将 p 值降低到接近 0%。
我收集的科学界没有被经济激励和相关的利益冲突假设检验从任何 p 值测量转向效应大小测量。这是因为效应量分析中统计距离或差异的单位是标准差而不是标准误。而且,标准偏差完全独立于样本量。另一方面,标准误差完全取决于样本量。
因此,任何对基于大样本和 p 值相关方法的假设检验得出具有统计学意义的结果持怀疑态度的人都应该持怀疑态度。他们应该使用相同的数据重新运行分析,但使用效果大小统计测试。并且,然后观察效应大小是否被认为是重要的。通过这样做,您可以观察到一堆统计上显着的差异与无关紧要的效应大小相关联。当结果具有统计学意义但没有“临床意义”时,这就是临床试验研究人员有时的意思。他们的意思是,一种治疗可能比安慰剂更好,但差异是如此微不足道,以至于在临床环境中对患者没有任何影响。
(频率论者)假设检验准确地解决了观察数据的概率问题,或者假设零假设为真,可能会出现更极端的问题。这种解释与样本量无关。无论样本大小为 5 还是 1,000,000,这种解释都是有效的。
一个重要的警告是,测试只与抽样误差有关。任何测量误差、抽样问题、覆盖率、数据输入错误等均不在抽样误差范围内。随着样本量的增加,非抽样误差会变得更有影响力,因为小的偏离会导致与随机抽样模型的显着偏离。结果,显着性检验变得不那么有用。
这绝不是对显着性检验的控诉。但是,我们需要注意我们的归因。结果可能具有统计学意义。但是,当样本量很大时,我们需要谨慎对待如何进行归因。这种差异是由于我们假设的生成过程相对于抽样误差造成的,还是由于许多可能影响测试统计的非抽样误差(统计不考虑)的结果?
大样本的另一个考虑因素是结果的实际意义。一个重要的测试可能表明(即使我们可以排除非抽样误差)在实际意义上是微不足道的差异。即使在给定抽样模型的情况下该结果不太可能,在问题的背景下它是否重要?给定足够大的样本,几美元的差异可能足以在比较两组收入时产生具有统计意义的结果。这在任何有意义的意义上重要吗?统计意义不能代替良好的判断力和主题知识。
顺便说一句,null 既不是真的也不是假的。它是一个模型。这是一个假设。我们假设 null 为真,并根据该假设评估我们的样本。如果在这种假设下我们的样本不太可能,我们会更加信任我们的替代方案。在实践中质疑 null 是否为真是对显着性检验逻辑的误解。