用于识别多元异常值的统计或稳健统计

数据挖掘 机器学习 数据挖掘 统计数据 异常检测 无监督学习
2022-02-15 09:45:01

对于单变量数据集,我们可以使用一些直接的方法,例如箱线图或 [5%, 95%] 分位数来识别异常值。对于多变量数据集,是否有任何统计数据可用于识别异常值?

1个回答

多变量异常值检测可能非常棘手,有时甚至 2D 数据也难以在视觉上破译。您正在寻找类似于 95% 分位数的稳健统计处理方法。

由于正态分布的数据自然与卡方分布一致,n 维稳健统计的黄金标准是使用Mahalanobis distances然后消除马氏空间中超过 95% 或 99% 分位数的数据。

scikit-learnR中提供了即插即用功能

这是该方法的出色理论和实践处理

在此处输入图像描述

这是一个带有一些启发式的全局观点

此外,还有一种非常复杂的处理方法,即PCOUT异常值检测,它依赖于主成分分解。有一个相应的 R 包,但理论上的处理是在付费墙后面:

P. Filzmoser、R. Maronna、M. Werner。高维异常值识别,计算统计和数据分析,52,1694-1711,2008

希望这可以帮助!