给定 N 个总体中的 n 个单位的样本,总体中位数可以通过样本中位数来估计。
我们怎样才能得到这个估计量的方差?
给定 N 个总体中的 n 个单位的样本,总体中位数可以通过样本中位数来估计。
我们怎样才能得到这个估计量的方差?
样本中位数的方差取决于您从中采样的分布。如果您知道抽样分布,则可以使用顺序统计分布来查找中位数的分布,从而找到其方差。
如果您不知道并且不想对分布做出假设,那么您可以做一些类似自举的事情来估计方差。
添加到乔纳森的答案和您的后续问题。
一切都取决于实际的人口分布。你知道,但它是什么?在下面的示例中(使用 R),我知道总体分布,但它有点不寻常 - 伽马分布乘以正态分布的乘积。可以计算中位数的抽样分布,但不太可能值得付出努力。
自举是一个很好的实用替代方案。我的对象结果包含从该总体中抽取的大小为 10 的样本的 1000 个样本中位数,这是说明其抽样分布的好方法。
> population <- rgamma(1000,1,1)*rnorm(1000,2,1)
> plot(density(population), main="Distribution of population")
> n <-10
> samp <- sample(population, n)
> c(median(population), median(samp))
[1] 1.136544 1.738544
>
> reps <- 1000
> results <- numeric(reps)
> for (i in 1:1000){
+ samp <- sample(population, n)
+ results[i] <- median(samp)
+ }
>
> plot(density(results), main="Distribution of sample median")
> summary(results)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1134 0.8320 1.1670 1.2530 1.6090 5.8890
> quantile(results, c(0.025,0.975))
2.5% 97.5%
0.373812 2.573625
根据您对问题的有限人口性质的重视程度,您可能需要查看像Woodruff (1952)和Francisco and Fuller (1991)这样的论文。从技术上讲,SRS/iid 样本的中位数方差取决于总体中位数的密度;然而,密度的概念并没有为有限的人口定义,所以伍德拉夫用一个原始的核类型估计器来逼近中位数。
我的观点是,对于小样本量,在实践中可能有一个有效且简单的解决方案。首先引用维基百科关于中位数的主题:
“对于关于一个中位数对称的单变量分布,Hodges-Lehmann 估计量是总体中位数的稳健且高效的估计量。[21]”
HL 中值估计对于大小为 n 的小样本特别简单,只需计算所有可能的两点(包括重复)平均值。从这些 n(n+1)/2 个新结构中,计算 HL 中位数估计器作为通常的样本中位数。
现在,根据关于中位数的同一篇维基百科文章,中位数的引用方差为 1/(4*n*f(median)*f(median))。但是,对于大小为 n 的离散样本,我认为假设中点处的密度函数值的保守估计是 1/n,因为我们正在除以这个项。因此,中位数的方差预计为 n/4 或更低。对于较大的 n,这会很差,所以是的,可以使用涉及重新采样的更复杂(并且有些人会建议主观)练习来构建最佳宽度的 bin,以便为 f(中值)提供更大的概率质量。
现在,如果方差估计的目的是获得对中位数的精确估计,由于 Mallow 假设中位数大于均值,我可以建议采用以下界限,即:中位数 - 均值小于或等于 Sigma(或, -Sigma 当中位数小于平均值时)。等效地,中位数位于均值加 Sigma 和均值减 Sigma 之间。
因此,插入均值和 sigma 的总体估计量(可能是稳健的)可以为中值建立一个边界,该边界与基于样本总体提供的均值和 sigma 估计值一致。