异常值检测的 MAD 公式

机器算法验证 数据转换 异常值 中位数 疯狂的
2022-03-23 17:42:39

有谁知道这个公式的名称是什么?

Mi=0.6745(xix^)MAD

其中是中值绝对偏差是 x 的中MADx^x

它出现在一些科学出版物中吗?我也想知道这个常数是从哪里来的(0.6745 大约是 29/43)。我用它来检测异常值。

2个回答

假设服从标准正态分布。x

收敛到半正态分布的中位数,即正态分布的 75% 百分位数,MADN(0.75)0.6745

由于您乘以,这意味着对于任何正态分布,对于足够大的样本量,您的公式将收敛到 1。(xx^)

该公式由 Iglewicz 和 Hoaglin给出(参考下文)。1

观测值的向量mad定义为如果是正态分布的,则可以证明 其中标准正态分布的也就是说,因此 是标准偏差的一致估计量。xnm(x)=median(|xmedian(x)|)x

limnE(m(x))=σΦ1(0.75)
Φ1(0.75)0.67450.75thm(x)/0.6745σ

如果您不能假设正态性,您可以使用任何其他分布的 0.75分位数,该分位数关于某个值(不一定是平均值)对称,标准化为均值 0 和标准差 1。通常一个 t-如果假设为肥尾,则使用分布。th

Iglewicz 和 Hoaglin 建议使用作为截止值,但这是一个选择问题(也经常使用±3.5±3

1 Boris Iglewicz 和 David Hoaglin (1993),“第 16 卷:如何检测和处理异常值”,质量控制中的 ASQC 基本参考资料:统计技术,Edward F. Mykytka,博士,编辑。