当 H0 已经被拒绝时,我是否应该担心 t 检验的功效相对较小?

机器算法验证 假设检验 t检验 统计能力 类型 i 和 ii 错误
2022-03-19 04:29:02

我有两个很小的样本(n=7对于每个),我得到它们的两个样本 t 检验能力 0.49,这是相对较小的(由 R 计算power.t.test())。但是,韦尔奇两样本 t 检验给出的 p 值为0.032在这里,因此可以拒绝原假设。

现在我应该担心功率很小吗?

我的理解是power =1β在哪里β是 II 类错误的概率。这意味着我的测试在大约 50% 的情况下应该拒绝拒绝 H0,所以我应该担心,特别是当我的特定样本不能拒绝 H0 时。但就我的特定样本而言,我似乎很幸运,我有点缺乏力量的 t 检验成功拒绝了,所以我不需要关心 beta,我可以享受能够在样本中显示显着差异方法。

我的解释正确吗?还是我错过了什么重要的事情?

3个回答

从狭义上讲,你是对的。功效是正确拒绝错误零假设的机会,因此您的机会很小,但无论如何都能做到。

然而,从贝叶斯信念更新的角度来看,“降低功率意味着减少观察统计显着结果所保证的信念转变(McClelland et al. 2015)。” 可以这样想:如果我告诉你,我对 30,000 名公众进行了调查,发现与销售数据相反,人们更喜欢百事可乐而不是可口可乐,那将非常引人注目。我在研究了 1% 的人口(即美国公众)后发现了一个结果。它可能会推广到更大的人群。如果我调查了 7 个人并发现了同样的事情,即使它具有统计学意义,我也不会说服任何人。您可以为此争论很多原因(您无法获得具有代表性的样本,可能无法满足方差分析/回归假设等),但是什么 重要的是,高权力意味着高说服力(你应该像那些你试图说服的人一样批评或更多的结果)。对于贝叶斯数学以及进一步的解释,您可以查看以下任何内容。

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

此外,Ioannidis (2005) 为反映 I 类错误的低功率结果提供了一些令人信服的论据,即使在没有 p-hacking 和其他通常由低功率导致的偏差的情况下(如果您不为大学或类似的东西!)。

这取决于如何进行功率分析。一般来说,四个变量(α、功效、效应大小和N) 这样,如果你规定任何三个,你就可以解决第四个。

通常,当人们在分析他们的数据后进行功效分析时,他们会进行事后功效分析(因此得名),这意味着他们插入了他们的 alpha 值、观察到的效果大小和他们的N, 求解功率。你当然不必那样做(你可以事先用理论上建议的效果大小和N你知道你可以使用),但如果你这样做了,结果在很大程度上已经被放弃了。具体来说,如果您的结果显着,则功效将为>50%,如果您的结果不显着,则功率将为<50%.

这似乎与您发现的不太一样。一种可能性是您的测试中使用的方法与功效分析中使用的方法之间存在细微的差异。这是由您观察到的事实所暗示的p-值接近.05并且您的计算功率接近50%,即使它们位于线路的不同侧。另一种可能性是您使用的效果大小与您发现的略有不同。

所以,“[它]应该打扰[你]功率小吗?” 是和不是。如果你做了一个传统的(无效的)事后权力分析,你必然会得到这样的价值——这个练习完全没有信息。另一方面,如果我们认真对待功率分析,低功率设置的显着效果基本上意味着您观察到的效果必须偏向于比实际更大,因此您应该对结果不太信任。

表示pp-您的测试值(作为随机变量)并修复一些α. 在以下情况下称测试结果为显着阳性pα. 我们有P(pα|H0)α. 此外,让β是这样的P(p>α|H1)β. 然后1β是测试的力量。

治疗H0H1作为(互补)事件,贝叶斯定理给出:

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
这表明后赔率H1是先前赔率的缩放版本,缩放强度有利于H1随着增加1β. 这意味着我们从阳性测试中学到更多1β很大。

如需进一步说明,请查看置信区间 (CI)。有人可能会争辩说,更大的样本量会使 CI 更窄,因此,如果测试对较小的样本很重要,那么它对较大的样本也很重要。但是,当我们在样本中包含更多数据时,CI 的位置也会发生变化,这可能会使结果不显着。也可以想象,更大的样本会有更大的标准误差,因此 CI 实际上会变得更宽。可以说,更大的样本量为事实提供了更多证明自己的机会。

最近有一些关于解释的有趣讨论p-值,请参见,例如:

[1] Colquhoun,“对错误发现率和 p 值误解的调查”,皇家学会开放科学,2014

[2] Colquhoun,“研究的可重复性和 P 值的误解”,2017,http://www.biorxiv.org/content/early/2017/08/07/144337

[3]“科恩会说什么?关于p<.005", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/

关于你的具体结果,我没有资格去评判。仅使用您的p-value 和 [2] 中的分类,它介于“弱证据:值得再看”和“中等证据以获得真实效果”之间。