分位数的定义

机器算法验证 采样
2022-03-29 22:24:21

给定 N 个采样值,“采样值的第 p 个分位数”是什么意思?

1个回答

理论上(与0<p<1) 它的意思是分数p向上累积分布。在实践中,使用了各种定义,特别是在统计计算中。例如,在 R 中有九种不同的定义,前三种用于离散解释,其余用于各种连续插值。

这是一个示例:如果您的样本是{400,1,1000,40},并且您正在寻找0.6分位数(60th centile) 那么不同的计算方法给出

> x <- numeric()
> for (t in 1:9) { x[t] <- quantile(c(400, 1, 1000, 40), probs=0.6, type = t ) }
> x
60%                                 
400 400  40 184 364 400 328 376 373 

我个人的看法是正确的数字是400自从

Pr(X<400)=0.5<0.6 and Pr(X>400)=0.25<10.6.
这来自将样本视为总体,如果绘制经验 CDF,它将是一系列步骤。对于插值存在相反的论点,因此经验 CDF 是连续的,因为它可能是对总体更好或更有用的近似值,并且插值方法会影响结果。