每对具有多个观察值的配对 t 检验

机器算法验证 r t检验 重复测量 配对数据 威尔克森符号秩
2022-03-23 10:03:58

例如,我有一堆网站 websiteA....websiteZ。现在我有了一种优化技术,可能会提高这些网站的性能。我想检查这种技术是否真的显着影响性能。所以我的因变量是 apply_technique 启用和禁用治疗。

因此,对于每个网站,我都会衡量应用和不应用优化技术的性能。所以我得到这样的结果:

website | technique disabled | technique enabled
websiteA      20 seconds          17 seconds
.....
websiteZ      45 seconds          39 seconds

等等

然而,考虑到可能的波动,我测量了每个(网站、治疗)组合 5 次,因此对于 websiteA,我在禁用技术的情况下进行了 5 次测量,在启用技术的情况下进行了 5 次测量。这将导致 26 个网站 * 2 次处理 * 5 次重复 = 260 次测量。

我的问题是,当我想进行配对 t 检验时,我是否首先需要对这 5 次试验的性能进行平均?当我平均它时,我可能会丢失一些信息,对吗?

我也可以决定不平均它们吗?所以我有 130 个 technology_disabled 观察值和 130 个 technology_enabled 观察值,然后我只需使用它们进行配对 t 检验?这可以接受吗?

编辑:我看到性能差异(technique_enabled - technology_disabled)不是正态分布的。所以我可能会使用 Wilcoxon 符号秩检验。但是这里同样的问题适用吗?我是否应该对 5 次试验的观察结果进行平均?

2个回答

对数据进行平均会导致损失信息和统计功效,因此最好避免。

由于您对网站进行了重复测量,因此您可以考虑网站之间的差异(或等效地,每个网站内观察的非独立性,因为一个网站上的观察比其他网站上的观察更有可能彼此相似) ,通过在回归模型(混合效应回归模型)中拟合网站 ID 的随机截距。这看起来像:

 apply_technique ~ treatment + (1 | website_ID)

lmer你可以使用lme4包中的模型来拟合这样的模型。这样,您将最大限度地利用数据。

如果每个组的成员数量相同,则组均值的平均值与所有观测值的均值相同。sd 可能更复杂,具体取决于您将什么作为零假设。最简单的零假设之一是每个观察值等于μ(W)+ϵ, 在哪里μ是网站的某些功能(即,μ:set of websitesR), 和ϵ正态分布,均值为零,sd 与网站无关。一个更复杂的零假设将有ϵ取决于网站(无需考虑均值不为零或取决于网站的可能性,因为这已被吸收到μ(W))。

如果您的零假设具有常数σ, 然后s应该在整个观察集上计算。但是,如果您的 null 没有一个σ,那么你将无法计算单个s. 你必须计算一个不同的s因此p对于每个网站,然后使用某种方法将它们组合起来。为此,您应该在收集任何数据之前决定组合方法。

现在,如果您拒绝这个空值,那么您就是在拒绝统计量呈正态分布两个条件的均值相同的假设。因此 null 为 false 意味着均值不同统计数据不是正态分布的。如果您从数据中认为统计数据不是正态分布的,那么测试均值是否相同需要进行调整,但这会遇到HARKing的问题。