估计正态分布的参数:中位数而不是平均值?

机器算法验证 正态分布 估计 异常值 强大的 无偏估计器
2022-02-04 10:07:50

估计正态分布参数的常用方法是使用均值和样本标准差/方差。

但是,如果有一些异常值,中位数和中位数与中位数的偏差应该更加稳健,对吧?

在我尝试的一些数据集上,正态分布估计为N(median(x),median|xmedian(x)|)似乎比经典更合身N(μ^,σ^)使用平均值和 RMS 偏差。

如果您假设数据集中存在一些异常值,是否有任何理由不使用中位数?你知道这种方法的一些参考吗?在 Google 上快速搜索并没有找到有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索词)。

中位数偏差,是否有偏差?我应该把它乘以n1n减少偏见?

您是否知道其他分布的类似稳健参数估计方法,例如 Gamma 分布或指数修正的高斯分布(在参数估计中需要偏度,而异常值真的会弄乱这个值)?

2个回答

观察到,在涉及从受污染的高斯分布中提取的数据的示例中,您可以通过使用mad代替med|xmed(x)|在哪里mad(x)是:

mad=1.4826×med|xmed(x)|

- 在哪里,(Φ1(0.75))1=1.4826是一个一致性因子,旨在确保

E(mad(x)2)=Var(x)
什么时候x未受污染——最初由 Gauss 制造(Walker, H. (1931))。

我想不出任何理由不使用med在这种情况下,而不是样本均值。较低的效率(在高斯!)mad可能是不使用的理由mad在你的例子中。但是,存在同样强大和高效的替代方案mad. 其中之一是Qn. 除了这个估计器还有许多其他优点。它对异常值也非常不敏感(实际上几乎和疯子一样不敏感)。与疯子相反,它不是围绕位置估计建立的,也没有假设数据中未污染部分的分布是对称的。像疯子一样,它基于订单统计数据,因此即使您的样本的基本分布没有矩,它也总是得到很好的定义。像疯子一样,它有一个简单的显式形式。甚至比疯子还多,我认为没有理由使用样本标准差而不是Qn在您描述的示例中(请参阅 Rousseeuw 和 Croux 1993 了解有关Qn)。

至于你的最后一个问题,关于具体情况xΓ(ν,λ), 然后

med(x)λ(ν1/3)

mad(x)λν

(在这两种情况下,当ν>1.5) 以便

ν^=(med(x)mad(x))2

λ^=mad(x)2med(x)

完整的推导参见 Chen 和 Rubin (1986)。

  • J. Chen 和 H. Rubin,1986 年。Gamma 和 Poisson 分布的中位数和平均值之间的差异界限,统计学家。概率。快报,4,281-283。
  • PJ Rousseeuw 和 C. Croux,1993 年。美国统计协会中值绝对偏差期刊的替代方案,卷。88,第 424 号,第 1273-1283 页
  • 沃克,H. (1931)。统计方法史研究。马里兰州巴尔的摩:Williams & Wilkins Co.,第 24-25 页。

如果正如您断言的那样,除了一小部分异常值之外,数据是正常的,则中位数和中位数绝对偏差将对严重错误具有鲁棒性,但不会非常有效地利用非异常数据中的信息。

如果您知道异常值比例的先验界限,您可以修剪该比例以获得平均值并将标准差Winsorize 。不需要此类知识的另一种方法是使用M 估计量来表示位置,并使用相关量来表示方差。如果您的假设是正确的(例如除了一小部分异常值之外,数据确实是正常的)在某些情况下效率的提高可能是可观的。

中值偏差作为标准偏差的估计值是有偏差的 -不像nn1调整; 未调整的样本均方渐近方差,但样本中位数绝对偏差不渐近总体标准差;您只需将其乘以一个常数即可获得一致性完成之后,它仍然是小样本偏差,与未调整的均方具有相同的意义。