两组患者的大型数据集(A 组:n = 100,000;B 组:n = 700,000)正在就他们的住院时间 (LOS) 进行比较。变量 LOS 在数据仓库中报告为整数,通常在 2 到 7 之间,因此每组中的数万名患者将具有相同的 LOS 值。A 组与 B 组的 LOS 是否不同?两组的LOS方差相差很大;两者都有偏态分布。
在医学文献中,人们通常会看到 Wilcoxon-Mann-Whitney 检验用于比较两组的 LOS,并将其报告为中位数之间差异的检验。通常由于不等的方差和样本量,这种方法不符合所谓的“纯移位模型”。
我想避免使用这种流行但有缺陷的方法,但有两个问题:
如果我按照最初的预期使用 WMW 测试(测试零假设 Prob(x < Y) = 0.5),那么不等的样本大小(100,000 对 700,000)或不等的方差是否会使测试结果无效?
有没有比较好的测试来比较两组的中位数 LOS?结果表明,A 组的中位 LOS 为 4 天,而 B 组的中位 LOS 为 5 天,因此先验地,鉴于样本量大,人们可能会预期两组的中位 LOS 存在显着差异。