大样本显着性检验的真实示例

机器算法验证 统计学意义 t检验 大数据
2022-04-22 12:35:31

在 CV 上讨论了当使用具有大样本的统计假设检验框架时出现的问题(参见例如这个线程)。讨论的主要问题是,在现实世界中,像“变量 X 和变量 Y 之间没有联系”这样的零假设几乎总是错误的(至少在社会研究等领域,当研究不是基于完美的可控随机实验时) ),因此如果我们的样本足够大,它将被拒绝。

我正在寻找支持“零假设几乎总是错误”陈述的实证研究的参考资料。

我相信有一项研究使用了一些包含数百个问题的大型调查。对于每个问题,作者都检验了该问题的答案取决于性别的假设。他们使用 t 检验并随机选择替代假设。结果,他们获得了大约 45% 的显着结果。我前段时间读过这篇论文,但丢失了参考文献,现在找不到了。

还有其他类似的研究吗?我正在寻找它们作为统计课程的插图(当我教别人时),以强调“统计意义”和“实际意义”之间的区别。

3个回答

我对这个表达感到非常恼火的事情是:

“零假设几乎总是错误的”

是它强调了现代频率主义假设检验的草率方式。如果你坚持这个框架,那么它是真的,几乎所有的因果关系都在某些方面,尽管是微不足道和复杂的,但在统计上是正确的,如果有足够的样本就可以找到。

对我来说,它要求回归费舍尔测试。为了提醒人们,Fisher 从不提倡使用决策规则方法进行显着性检验,他只是说p-值应与分析的统计功效进行比较。

这样做的目的是要求调查人员先验地指定他们可能认为有显着影响的因素。通过这样做,在结果的解释中,很明显,结果来自过度强大的分析。过度分析的结果通常报告非常小的影响,并且检测这种影响的能力通常非常低。所以虽然p- 价值非常重要,力量非常小,我们质疑这些发现到底有多“重要”。

另一方面,当您比较先验效应大小的功效时,过强分析的功效会非常大,而 p 值会非常小,无法进行实际比较。这说明了研究人员所说的他们会发现的东西和他们实际发现的东西之间的直观差异。

例如,假设您有一个试验来查看降压药的效果。您意识到,“啊!在功效分析中,研究人员使用了 1.20 mmHg 的平均血压差异,认为这是具有临床意义的效果,但在他们的分析中发现差异为 0.0300 mmHg,95% 置信区间为 0.0299 - 0.0301 mmHg 。” 那时你会意识到,虽然这些结果具有统计学意义,但它们实际上并不具有临床意义。

Meehl (1990) 的第 205 页简要描述了一项针对 57,000 名高中生的研究,其中 990 个不同的交叉表(在 45 个变量之间;45 个选择 2 为 990)中有 92% 具有统计学意义。大多数听说过这项研究的人可能对 Cohen (1994) 的研究很熟悉。

Standing、Sproule 和 Khouzam (1991) 检查了来自 2,058 名加拿大小学生的 135 个变量的数据集。17,936 个相关系数中有 4,506 个 (25%) 具有双尾p<.001.

在这个大数据时代,与 Meehl 和 Standing 等人的类似研究具有非常大的样本量和变量数量会很好。但我们确实有 Kramer、Guillory 和 Hancock(2014 年),他们对大约 690,000 名 Facebook 用户进行了一项研究,发现显着的影响是微观的,例如用户新闻提要中正面帖子的减少降低了正面词在用户自己的帖子0.1%[t(310,044)=5.63,P<0.001, 科恩d=0.02]。真正富有的是克莱默等人。pooh-pooh 另一个显着的影响,他们不想在它很小的理由上找到:“积极和消极是分开评估的,因为有证据表明它们不仅仅是同一光谱的相反两端。事实上,消极和积极的词几乎没有使用相关 [r=0.04,t(620,587)=38.01,P<0.001]。”(第 8,789 页)。

科恩,J. (1994)。地球是圆的 ( p < .05)。美国心理学家,49 (12), 997–1003。doi:10.1037/0003-066X.49.12.997

Kramer, AD, Guillory, JE 和 Hancock, JT (2014)。通过社交网络进行大规模情绪感染的实验证据。美国国家科学院院刊,111 (24), 8788–8790。doi:10.1073/pnas.1320040111

米尔,PE(1990)。为什么心理学理论研究的总结往往难以解释。心理报告,66 (1), 195–244。doi:10.2466/pr0.1990.66.1.195

站立, L., Sproule, R., & Khouzam, N. (1991)。经验统计:IV。说明 Meehl 的软心理学第六定律:一切都与一切相关。心理报告,69 (1), 123–126。doi:10.2466/PR0.69.5.123-126

我认为您应该进入美国关于 p-value 的统计协会声明

他们确实引用了大数据研究不应该从 p 值本身得出任何结论。