数据挖掘 - 用于识别多元异常值的统计或稳健统计 - 吾爱随笔录

数据挖掘机器学习数据挖掘统计数据异常检测无监督学习

2022-02-15 09:45:01

对于单变量数据集，我们可以使用一些直接的方法，例如箱线图或 [5%, 95%] 分位数来识别异常值。对于多变量数据集，是否有任何统计数据可用于识别异常值？

1个回答

多变量异常值检测可能非常棘手，有时甚至 2D 数据也难以在视觉上破译。您正在寻找类似于 95% 分位数的稳健统计处理方法。

由于正态分布的数据自然与卡方分布一致，n 维稳健统计的黄金标准是使用Mahalanobis distances然后消除马氏空间中超过 95% 或 99% 分位数的数据。

scikit-learn和R中提供了即插即用功能。

此外，还有一种非常复杂的处理方法，即PCOUT异常值检测，它依赖于主成分分解。有一个相应的 R 包，但理论上的处理是在付费墙后面：

希望这可以帮助！

其它你可能感兴趣的问题