例如,我有一堆网站 websiteA....websiteZ。现在我有了一种优化技术,可能会提高这些网站的性能。我想检查这种技术是否真的显着影响性能。所以我的因变量是 apply_technique 启用和禁用治疗。
因此,对于每个网站,我都会衡量应用和不应用优化技术的性能。所以我得到这样的结果:
website | technique disabled | technique enabled
websiteA 20 seconds 17 seconds
.....
websiteZ 45 seconds 39 seconds
等等
然而,考虑到可能的波动,我测量了每个(网站、治疗)组合 5 次,因此对于 websiteA,我在禁用技术的情况下进行了 5 次测量,在启用技术的情况下进行了 5 次测量。这将导致 26 个网站 * 2 次处理 * 5 次重复 = 260 次测量。
我的问题是,当我想进行配对 t 检验时,我是否首先需要对这 5 次试验的性能进行平均?当我平均它时,我可能会丢失一些信息,对吗?
我也可以决定不平均它们吗?所以我有 130 个 technology_disabled 观察值和 130 个 technology_enabled 观察值,然后我只需使用它们进行配对 t 检验?这可以接受吗?
编辑:我看到性能差异(technique_enabled - technology_disabled)不是正态分布的。所以我可能会使用 Wilcoxon 符号秩检验。但是这里同样的问题适用吗?我是否应该对 5 次试验的观察结果进行平均?