配对与非配对 t 检验

机器算法验证 t检验 配对数据
2022-01-16 21:57:37

假设我有 20 只老鼠。我以某种方式将老鼠配对,这样我就得到了 10 对。就这个问题而言,它可能是随机配对,也可能是明智的配对,例如尝试将来自同一窝、同性别、体重相似的老鼠配对,或者它可能是故意愚蠢的配对,例如试图将体重尽可能不相等的老鼠配对。然后我使用随机数将每对中的一只老鼠分配给对照组,另一只老鼠分配给待治疗组。我现在做实验,只处理待处理的老鼠,其他的对刚才的安排完全不关心。

在分析结果时,可以使用非配对 t 检验或配对 t 检验。如果有的话,答案会有什么不同?(我基本上对需要估计的任何统计参数的系统差异感兴趣。)

我问这个的原因是我最近参与的一篇论文被生物学家批评为使用配对 t 检验而不是非配对 t 检验。当然,在实际实验中,情况并不像我所描绘的那样极端,我认为有充分的理由进行配对。但生物学家不同意。

在我看来,在我所描绘的情况下,通过使用配对 t 检验而不是非配对检验,即使配对不合适,也不可能错误地提高统计显着性(降低 p 值)。然而,如果老鼠配对不当,它可能会恶化统计显着性。这是正确的吗?

4个回答

我同意弗兰克和彼得提出的观点,但我认为有一个简单的公式可以触及问题的核心,可能值得 OP 考虑。

是两个相关性未知的随机变量。XY

Z=XY

的方差是多少?Z

这是一个简单的公式: 如果(即正相关)怎么办?

Var(Z)=Var(X)+Var(Y)2Cov(X,Y).
Cov(X,Y)>0XY

然后Var(Z)<Var(X)+Var(Y). 在这种情况下,如果由于正相关而进行配对,例如当您在干预前后处理同一主题时,配对会有所帮助,因为独立配对差异的方差低于未配对案例的方差。该方法减少了方差。测试更强大。这可以通过循环数据显着地显示出来。我在一本书中看到一个例子,他们想看看华盛顿特区的温度是否高于纽约市。因此,他们将两个城市的平均月度温度设为 2 年。当然,由于四个季节,一年中的差异很大。这种变化对于非配对 t 检验来说太大而无法检测到差异。然而,基于同一年同一月份的配对消除了这种季节性影响,并且配对t检验清楚地表明,华盛顿特区的平均温度往往高于纽约。月纽约的温度)和月 DC 的温度)呈正相关,因为 NY 和 DC 的季节相同,而且城市距离很近,以至于它们经常会遇到影响温度的相同天气系统. DC可能会稍微暖和一些,因为它更南一些。XiAYiA

请注意,协方差或相关性越大,方差的减少就越大。

现在假设是负数。Cov(X,Y)

然后现在配对会比不配对更糟糕,因为方差实际上增加了!Var(Z)>Var(X)+Var(Y)

不相关时,您使用哪种方法可能并不重要。彼得的随机配对案例就是这样的情况。XY

与其配对,不如理解底层数据模型。如果配对是为了处理不受控制的异质性,通常情况下(双胞胎研究除外)配对只能部分控制这种变异性来源,多元回归会做得更好。这是因为对连续变量的匹配经常会导致残差,因为无法对这些变量进行精确匹配。

这两个测试(配对和不配对)提出不同的问题,因此他们可以获得不同的答案。正确的配对几乎总是比不配对的更强大——这就是配对的真正意义所在。因此,既然您说配对是正确的,那么配对测试的 p 值可能低于未配对的相同数据。当然,你可以同时做这两件事,然后自己看看。

因此,您的困境的答案是实质性的,而不是统计的。你的搭配对吗?

您能否从随机配对中获得比未配对测试更显着的结果?让我们来看看:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

是的,您可以,虽然这里的差异非常小,但配对的 p 较低。我多次运行该代码。毫不奇怪,有时一个 p 较低,有时另一个 p 较低,但在所有情况下差异都很小。但是,我确信在某些情况下 p 值的差异可能很大。

我现在更好地理解了让我担心配对与非配对 t 检验以及相关 p 值的问题。发现是一段有趣的旅程,一路上有很多惊喜。对迈克尔的贡献进行的调查导致了一个惊喜。这在实际建议方面是无可指责的。此外,他说出了我认为几乎所有统计学家都相信的观点,并且他有几票支持这一点。然而,作为一个理论,它并不完全正确。我通过制定 p 值的公式发现了这一点,然后仔细思考如何使用这些公式得出反例。我是一个训练有素的数学家,反例是“数学家的反例”。这不是你在实际统计中会遇到的东西,当我问我最初的问题时,我试图找出这种事情。

这是给出反例的 R 代码:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

请注意以下特征: X 和 Y 是两个 10 元组,它们的差异很大并且几乎是恒定的。对于许多有效数字而言,相关性为 1.000.... 未配对测试的 p 值比配对测试的 p 值小约 10^40 倍。所以这与迈克尔的描述相矛盾,前提是人们从字面上理解他的描述,数学家风格。我的回答与迈克尔的回答有关的部分到此结束。


以下是彼得的回答引发的想法。在讨论我最初的问题时,我在评论中推测,听起来不同的两个特定 p 值分布实际上是相同的。我现在可以证明这一点。更重要的是,证明揭示了 p 值的基本性质,如此基本以至于没有文本(我遇到过的)费心解释。也许所有的专业统计学家都知道这个秘密,但对我来说,p 值的定义总是显得奇怪和人为。在泄露统计学家的秘密之前,让我明确一下这个问题。

并从某个正态分布中随机且独立地选择两个随机有两种方法可以从此选择中获得 p 值。一种是使用非配对t检验,另一种是使用配对t检验。我的猜想是,在这两种情况下,一个人得到的 p 值分布是相同的。当我第一次开始思考时,我认为这个猜想很鲁莽而且是错误的:非配对检验与个自由度的 t 统计量相关,配对检验与 t-对n>1n2(n1)n1自由程度。这两个分布是不同的,那么 p 值的相关分布到底怎么可能相同呢?深思熟虑后,我才意识到,这种对我猜想的明显驳斥过于轻率了。

答案来自以下考虑。假设是一个连续的 pdf(即它的积分值为 1)。坐标的变化将相关分布转换为上的均匀分布。公式是 ,这在许多文本中都有解释。文本在 p 值的上下文中没有指出的是,这正是从 t 统计量中给出 p 值的公式,当f:(0,)(0,)[0,1]

p=tf(s)ds
f是 t 分布的 pdf。(我试图使讨论尽可能简单,因为它确实很简单。更全面的讨论会稍微不同地对待单侧和双侧 t 检验,可能会出现 2 的因素,以及 t 统计量可能位于而不是我省略了所有的混乱。)(,)[0,)

当找到与统计中的任何其他标准分布相关的 p 值时,完全相同的讨论也适用。再一次,如果数据是随机分布的(这次根据一些不同的分布),那么得到的 p 值将均匀分布在中。[0,1]

这如何适用于我们的配对和非配对 t 检验?关键在于配对 t 检验,样本是独立随机选择的,就像我上面的代码一样,t 的值确实遵循 t 分布(具有个自由度)。因此,多次复制 X 和 Y 的选择所产生的 p 值遵循上的均匀分布。非配对 t 检验也是如此,尽管这次 t 分布具有个自由度。尽管如此,根据我上面给出的一般论点,得到上也有均匀分布。如果应用上面的 Peter 代码来确定 p 值,那么我们会得到两种不同的方法来从均匀分布中抽取随机样本n1[0,1]2(n1)[0,1][0,1]然而,这两个答案并不独立。