Welch 的 t 检验为更极端的差异提供更差的 p 值

机器算法验证 t检验
2022-03-18 03:16:48

以下是四组不同的数字:

A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}

在不假设方差相等的情况下使用双样本 t 检验,我将 B、C 和 D 与 A 进行比较,得到以下 p 值:

0.015827(A 与 B)
0.000283(A 与 C)
0.001190(A 与 D)

我觉得奇怪的是,AD 测试的 p 值比 AC 测试差:均值之间的差异显然要大得多,并且 D 的方差远低于 C 的方差。直觉上(至少在我的直觉上) ),这两个事实都应该降低 p 值。

有人可以解释这是否是 t 检验的期望或预期行为,或者它是否必须对我的特定数据集做更多的事情(可能是极低的样本量?)。t 检验是否不适用于这组特定的数据?

从纯粹的计算角度来看,p 值较差的原因似乎是自由度,在 AD 比较中为 2.018,而在 AC 比较中为 3.566。但可以肯定的是,如果您刚刚看到这些数字,您是否认为与 AC 相比,在 AD 案例中拒绝零假设的证据更有力?

有些人可能会认为这不是问题,因为无论如何所有 p 值都非常低。我的问题是这 3 个测试是我正在执行的一组测试的一部分。在对多次测试进行校正后,AD 比较没有通过,而 AC 比较可以。想象一下绘制这些数字(比如生物学家经常做的带有误差线的条形图)并试图证明为什么 C 与 A 显着不同但 D 不是......好吧,我不能。

更新:为什么这真的很重要

让我澄清一下为什么这一观察结果会对解释过去的研究产生重大影响。在生物信息学中,我已经看到 t 检验大规模应用于小样本(想想成百上千个基因的差异基因表达,或者许多不同药物对细胞系的影响,仅使用 3-5 次重复) )。通常的程序是进行多次 t 检验(每个基因或药物一个),然后进行多次检验校正,通常是 FDR。鉴于上述对 Welch t 检验行为的观察,这意味着一些最好的情况正在被系统地过滤掉。尽管大多数人会查看列表顶部比较的实际数据(具有最佳 p 值的比较),但我不知道有谁会查看所有比较列表中的零假设t 拒绝。

4个回答

是的,这是自由度。当我们将 B、C、D 组与 A 组进行比较时,t 统计量本身会增加;分子变大,分母变小。

为什么你的方法“不起作用”?好吧,自由度的 Satterthwaite 近似值和参考分布(顾名思义!)只是一个近似值。如果每组有更多的样本,而不是大量的重尾数据,它会很好用;对于大多数目的而言,每组 3 个观察值确实非常小。(此外,虽然 p 值对于进行测试很有用,但它们不会测量证据,也不会根据数据直接解释来估计参数。)

如果您真的想计算出检验统计量的精确分布 - 以及更好的校准 p 值 -可以使用此处引用的方法。但是,它们依赖于假设正常性,这是您没有明显能力检查的假设,在这里。

这个问题有很多,我很确定其中一些超出了我的理解。因此,虽然我对“问题”和一些猜测有可能的解决方案,但您可能需要检查我的“工作”。

你对证据感兴趣。Fisher 建议使用 p 值作为证据,但数据集中反对零假设的证据比 p 值更容易(明智地?)用似然函数显示。然而,更极端的 p 值是更有力的证据。

这是我的解决方案:不要使用 Welch 的 t 检验,而是使用平方根变换来变换数据以均衡方差,然后使用标准的学生 t 检验。该转换适用于您的数据,并且是异方差数据的标准方法之一。p 值的顺序现在符合您的直觉,并将用作证据。

如果您使用 p 值作为证据,而不是试图防止长期误报错误,那么在我看来,调整 p 值以进行多重比较的论据变得相当薄弱。

现在,投机部分。据我了解,Welch 的 t 检验是 Fisher-Behrens 问题的解决方案(测试意味着数据具有不相等的方差),但这是一个 Fisher 不满意的解决方案。也许它的基本哲学是内曼 - 皮尔逊主义者。无论如何,来自 t 检验的 p 值中的证据数量取决于 p 值和样本量。(这并没有得到广泛认可,也许是因为 z 检验中的 p 值证据与样本量无关。)我怀疑 Welch 检验通过调整自由度而破坏了 p 值的证据性质。

在挖掘之后,我认为我的最终判决是这样的:

为了简化讨论,我们只考虑样本量相等的情况。在这种情况下,自由度的近似值可以写成

(s12n+s22n)2s14n2(n1)+s24n2(n1)=...=(n1)(1+2s12s22s14+s24),

在哪里s12s22是样本方差和n是样本量。因此,自由度为(n1)2当样本方差相等且接近(n1)随着样本量变得更加不平等。这意味着仅基于样本方差,自由度将相差近 2 倍。即使对于合理大小的样本量(例如 10 或 20),也很容易出现主帖中说明的情况。

当执行许多 t 检验时,按 p 值对比较进行排序很容易导致最佳比较没有排在列表的顶部,或者在调整多个测试后被排除在外。

我个人的观点是,这是 Welch t 检验的一个根本缺陷,因为它是为比较方差不等的样本而设计的,但方差越不等,你失去的权力就越多(从某种意义上说,你的 p 的排序-值将是错误的)。

我能想到的唯一解决方案是要么使用一些基于排列的测试,要么转换数据,以便测试中的差异彼此不会太远。

据我所知,我听说过使用 Satterthwaite 近似的 Welch t 检验

经 0.05 显着性检验验证。

这意味着当P(卡方分布的线性组合> c)= 0.05时,

我们可以得到近似的c。

所以,我认为 p 值在 0.05 左右是相当可靠的,

显然,当它远小于 0.05 时,情况并非如此。

p1=0 p2=0 for (m in 1:50) { a<-c(-m+95.47, -m+87.90, -m+99.00) c<-c(38.4, 40.4, 32.8) d<-c (1.8, 1.2, 1.1) p1[m]=t.test(a,c, var.eqaul=F)p.valuep2[m]=t.test(a,d,var.eqaul=F)p.value } plot(1:50, p1, col="black") 点(1:50, p2, col="red")

您可以看到 p 值在接近 0.05 时变得更加正确...

所以我们在使用 Welch 的 t 检验时不能使用远小于 0.05 的 p 值。

如果使用它,我认为我们应该写一篇关于它的论文。

无论如何,我目前正在写关于“统计”的文章,这个主题很有趣。

我希望在您的许可下使用您的数据来编写本书。

你能让我使用你的数据吗?

如果您能说出数据的来源和背景,我将不胜感激

他们来了!