我有一个包含数以万计医疗费用数据观察的数据集。该数据高度向右倾斜,并且有很多零。两组人看起来像这样(在这种情况下,两个年龄组,每个年龄组 > 3000 obs):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
如果我对此数据执行 Welch 的 t 检验,我会得到一个结果:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
我知道对这些数据使用 t 检验是不正确的,因为它非常不正常。但是,如果我对均值的差异使用置换检验,我会一直得到几乎相同的 p 值(并且随着更多的迭代它会变得更接近)。
在 R 和 permTS 中使用 perm 包和精确的 Monte Carlo
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
为什么排列检验统计量如此接近 t.test 值?如果我记录数据,那么我会得到 0.28 的 t.test p 值,并且与置换测试相同。我认为 t 检验值比我在这里得到的更垃圾。我喜欢的许多其他数据集都是如此,我想知道为什么 t 检验似乎在不应该工作的情况下工作。
我在这里担心的是个人成本不是 iid 有许多成本分布非常不同的子群体(女性与男性、慢性病等)似乎违反了中心极限定理的 iid 要求,或者我不应该担心关于那个?