中位数的标准误

机器算法验证 标准错误 中位数
2022-01-26 06:45:02

如果我想在非正态分布的小样本(我正在使用python)的情况下测量中位数的标准误差,以下公式是否正确?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)
4个回答

Sokal 和 Rohlf 在他们的书《生物统计学》(第 139 页)中给出了这个公式在“适用性评论”下,他们写道:来自正常人群的大样本。 因此,恐怕您的问题的答案是否定的。另请参见此处

在具有非正态分布的小样本中获得中位数的标准误差和置信区间的一种方法是自举。 这篇文章提供了用于引导的 Python 包的链接。

警告

@whuber 指出,在小样本中引导中位数并不是很有用,因为引导的理由是渐近的(请参阅下面的评论)。

幻数1.253 来自渐近方差公式 其中是真实中位数,是该点的真实密度。

As.Var.[m^]=14f(m)2n
mf(m)

对于正态以外的任何分布(玛丽承认这在她的数据中是值得怀疑的),你会有不同的因素。获得中值估计并不是什么大不了的事,尽管您可以开始为偶数观察的中间值与反转 cdf 或类似的东西而苦恼。如果需要,可以通过核密度估计器估计相关的密度值。总的来说,这当然是相对可疑的,因为正在采用三个近似值:m^

  1. 方差的渐近公式适用于小样本;
  2. 估计的中位数与真实中位数足够接近;
  3. 核密度估计器给出了准确的值。

样本量越小,它就越可疑。

根据@mary 的一些评论,我认为以下内容是合适的。她似乎选择了中位数,因为样本很小。

如果您选择中位数是因为它是一个小样本,那不是一个很好的理由。您选择中位数是因为中位数是一个重要值。它说的是与平均值不同的东西。您也可以选择它进行一些统计计算,因为它对异常值或偏斜等某些问题具有鲁棒性。然而,小样本量并不是它可以应对的问题之一。例如,当样本量变小时,它实际上对偏斜比对平均值更敏感。

这里不是解决方案,但可能有帮助:

假设您的数据分布是,让是累积密度函数。所以分布的中位数是数 m 使得 P(m) = 1/2。p(x)P(x)=xp

这个有用的页面之后,我们可以计算一个数字样本的中位数。我认为是这里是使其成为概率分布的适当常数,我认为如果 n 是奇数(不确定),则选择 (n-1)/2 是 n-1。xnq(x)=cnp(x)(P(x)(1P(x)))(n1)/2cn

最后,你想知道 q(x) 的方差,你可以用这个公式来推理。