以下是四组不同的数字:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}
在不假设方差相等的情况下使用双样本 t 检验,我将 B、C 和 D 与 A 进行比较,得到以下 p 值:
0.015827(A 与 B)
0.000283(A 与 C)
0.001190(A 与 D)
我觉得奇怪的是,AD 测试的 p 值比 AC 测试差:均值之间的差异显然要大得多,并且 D 的方差远低于 C 的方差。直觉上(至少在我的直觉上) ),这两个事实都应该降低 p 值。
有人可以解释这是否是 t 检验的期望或预期行为,或者它是否必须对我的特定数据集做更多的事情(可能是极低的样本量?)。t 检验是否不适用于这组特定的数据?
从纯粹的计算角度来看,p 值较差的原因似乎是自由度,在 AD 比较中为 2.018,而在 AC 比较中为 3.566。但可以肯定的是,如果您刚刚看到这些数字,您是否认为与 AC 相比,在 AD 案例中拒绝零假设的证据更有力?
有些人可能会认为这不是问题,因为无论如何所有 p 值都非常低。我的问题是这 3 个测试是我正在执行的一组测试的一部分。在对多次测试进行校正后,AD 比较没有通过,而 AC 比较可以。想象一下绘制这些数字(比如生物学家经常做的带有误差线的条形图)并试图证明为什么 C 与 A 显着不同但 D 不是......好吧,我不能。
更新:为什么这真的很重要
让我澄清一下为什么这一观察结果会对解释过去的研究产生重大影响。在生物信息学中,我已经看到 t 检验大规模应用于小样本(想想成百上千个基因的差异基因表达,或者许多不同药物对细胞系的影响,仅使用 3-5 次重复) )。通常的程序是进行多次 t 检验(每个基因或药物一个),然后进行多次检验校正,通常是 FDR。鉴于上述对 Welch t 检验行为的观察,这意味着一些最好的情况正在被系统地过滤掉。尽管大多数人会查看列表顶部比较的实际数据(具有最佳 p 值的比较),但我不知道有谁会查看所有比较列表中的零假设t 拒绝。