机器算法验证 - 两样本 t 检验和配对 t 检验有什么区别 - 吾爱随笔录

两样本 t 检验和配对 t 检验有什么区别

机器算法验证假设检验置信区间 t检验配对数据两个样本

2022-03-31 13:28:50

当我浏览假设检验时，我看到了配对和两样本 t 检验，但无法理解其中的区别。对于这两个检验的解释，我看到下面这句话“双样本t检验用于两个样本的数据在统计上独立时使用，而配对t检验用于数据为匹配对的形式。 "

这两个测试有何不同？因为基于这种解释，我认为，我们可以将配对群体视为两个独立的群体。谁能解释一下？

我只有 1 年的统计经验，所以请考虑到我可能很难理解深刻的解释。

2个回答

当您使用配对 T 检验时，您实际上是在进行单样本检验，其中您的一个样本包含两组结果之间的成对差异。如果您创建这些差异值的新样本，然后将公式应用于单样本 T 检验，您将看到这等效于配对检验。

在双样本测试中，您有两个独立样本。当然，通过独立性，我们预计两组测量值不会相关。两个样本的样本大小不必相等。（但它们大致相等通常是有意义的。）

在配对测试中，您有一个配对样本。通常，将有对观察值这些可能是对每个个体受试者的两次测量。（例如，问卷、考试或实验室测试的“治疗”之前和之后的分数。）或者，这些对可以是对象对。（例如，已婚夫妇、双胞胎或根据某些标准匹配的对象。它们也可能是同时在同一时间和地点制造的两个设备。）预计配对的两个测量值将是相关的。在分析中，可以查看差异样本 $n$ $(x_i, x_2).$ $d_i = x_1-x_2.$

例子：

配对。假设您有一项研究，其中受试者在特定任务中具有不同的技能。据称，培训课程将增加少量但重要的技能。您在训练之前（测试分数x1）和训练之后（x2）测试了 20 个科目。

summary(x1)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  71.16   99.70  105.31  105.91  122.32  125.95 
length(x1);  sd(x1)
[1] 20           # sample size
[1] 16.33155     # sample standard deviation

summary(x2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  72.63  102.04  111.76  109.16  123.90  134.25 
length(x2);  sd(x2)
[1] 20
[1] 17.30927

平均分数从训练前的 105.91 增加到训练后的 109.16。之前和之后的分数高度相关。

cor(x1,x2)
[1] 0.9859222

散点图显示了强线性相关性。此外，大多数曲线位于 45 度线以上，表明培训课程取得适度但主要是积极的结果。 $(X_{1i},X_{2i})$

R 中的配对 t 检验，测试与单边替代P 值（接近表明观察到的改进非常显着。 $H_0: \mu_B = \mu_A$ $H_0: \mu_B < \mu_A.$ $0)$

t.test(x1, x2, pair=T, alt="less")

        Paired t-test

data:  x1 and x2
t = -4.8675, df = 19, p-value = 5.347e-05
alternative hypothesis: 
  true difference in means is less than 0
95 percent confidence interval:
      -Inf -2.095359
sample estimates:
mean of the differences 
              -3.249817

这种配对使我们能够检测到“超越噪音”的微小改进，即巨大的主题可变性。

两个样本。相比之下，假设我们对一组 20 名随机选择的受试者进行了培训，这些受试者获得了考试成绩t。为了进行比较，我们对来自同一人群的 20 名未参加培训课程的受试者进行了比较。此外，假设接受过培训的科目的真实平均分数比未接受过培训的科目的真实平均分高 4 分。

然后我们将进行单边双样本 t 检验。而且，由于人口中技能的多样性，我们只有大约 20% 的机会检测到差异。

set.seed(516) 
pv = replicate(10^4, t.test(rnorm(20, 100, 15),
                            rnorm(20, 104, 15), alt="less")$p.val)
mean(pv < 0.05)
[1] 0.2043

注意：在上面的模拟中，对来自总体和的样本分别执行了 10,000 个双样本测试。显示了这 10,000 个模拟实验中的第一个实验的数据摘要和 Welch 2 样本 t 检验。 $n_1=n_2=20$ $\mathsf{Norm}(100, 15)$ $\mathsf{Norm}(104, 15),$

set.seed(516)
u = rnorm(20, 100, 15);  u = rnorm(20, 104, 15)
summary(u);  length(u);  sd(u)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  85.29  101.01  111.27  110.69  120.35  134.40 
[1] 20
[1] 13.30721
t = rnorm(20, 100, 15);  t = rnorm(20, 104, 15)
summary(t);  length(t);  sd(t)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  75.96   93.48  109.83  106.62  115.34  135.87 
[1] 20
[1] 15.66145

boxplot(u, t, norizontal=T, col="skyblue2", names=T)

t.test(u, t, alt="less")

        Welch Two Sample t-test

data:  u and t
t = 0.88607, df = 37.034, p-value = 0.8094
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
     -Inf 11.82465
sample estimates:
mean of x mean of y 
 110.6948  106.6229

请注意，在这种特殊情况下，训练组中受试者的平均分数样本恰好小于对照组的平均值。对于如此多变的人群，这种情况并不罕见。一般来说，两样本 t 检验需要更大的样本量（每个样本大约 200 个）才能可靠地检测 4 个单位的“训练”效果。

其它你可能感兴趣的问题

上一篇Cox 比例风险模型中的似然项下一篇迭代重新加权最小二乘 - 权重混淆