观察到,在涉及从受污染的高斯分布中提取的数据的示例中,您可以通过使用mad代替med|x−med(x)|在哪里mad(x)是:
mad=1.4826×med|x−med(x)|
- 在哪里,(Φ−1(0.75))−1=1.4826是一个一致性因子,旨在确保
E(mad(x)2)=Var(x)
什么时候x未受污染——最初由 Gauss 制造(Walker, H. (1931))。
我想不出任何理由不使用med在这种情况下,而不是样本均值。较低的效率(在高斯!)mad可能是不使用的理由mad在你的例子中。但是,存在同样强大和高效的替代方案mad. 其中之一是Qn. 除了这个估计器还有许多其他优点。它对异常值也非常不敏感(实际上几乎和疯子一样不敏感)。与疯子相反,它不是围绕位置估计建立的,也没有假设数据中未污染部分的分布是对称的。像疯子一样,它基于订单统计数据,因此即使您的样本的基本分布没有矩,它也总是得到很好的定义。像疯子一样,它有一个简单的显式形式。甚至比疯子还多,我认为没有理由使用样本标准差而不是Qn在您描述的示例中(请参阅 Rousseeuw 和 Croux 1993 了解有关Qn)。
至于你的最后一个问题,关于具体情况x∼Γ(ν,λ), 然后
med(x)≈λ(ν−1/3)
和
mad(x)≈λν−−√
(在这两种情况下,当ν>1.5) 以便
ν^=(med(x)mad(x))2
和
λ^=mad(x)2med(x)
完整的推导参见 Chen 和 Rubin (1986)。
- J. Chen 和 H. Rubin,1986 年。Gamma 和 Poisson 分布的中位数和平均值之间的差异界限,统计学家。概率。快报,4,281-283。
- PJ Rousseeuw 和 C. Croux,1993 年。美国统计协会中值绝对偏差期刊的替代方案,卷。88,第 424 号,第 1273-1283 页
- 沃克,H. (1931)。统计方法史研究。马里兰州巴尔的摩:Williams & Wilkins Co.,第 24-25 页。