在我了解什么是伪中位数的过程中,我尝试使用wikipedia中的定义在 R 中手动计算它。根据我的数据计算,我发现报告的值与wilcox.test
我计算为数据的成对平均值中位数的值完全不同(0.275 对 0.33,而置信区间为 0.330;0.345)。我想问我遗漏了什么,所以我尝试为这个 Q 创建一个可重现的示例,我发现报告的值与我生成的数据几乎相同:
set.seed(910401)
distr_data <- rgamma(100,0.1,1)
wilcox.test(distr_data, conf.int = T)
# 0.006787143
all_pairs <- t(combn(distr_data, 2))
all_pair_means <- (all_pairs[,1] + all_pairs[,2]) / 2
median(all_pair_means)
# 0.006970087
因此,在尝试了不同的样本大小和参数后,我对伽马分布进行了一些尝试,最终发现了一个也会产生完全不同的结果:
distr_data <- rgamma(100,0.1,1000)
wilcox.test(distr_data, conf.int = T)
# 6.533661e-05
# CI 6.049175e-05 8.016369e-05
all_pairs <- t(combn(distr_data, 2))
all_pair_means <- (all_pairs[,1] + all_pairs[,2]) / 2
median(all_pair_means)
# 9.181717e-06
所以我的问题来了。伪中线到底是什么wilcox.test
?当wilcox.test
和维基百科伪媒体不同意时,这意味着什么?