对于单变量数据集,我们可以使用一些直接的方法,例如箱线图或 [5%, 95%] 分位数来识别异常值。对于多变量数据集,是否有任何统计数据可用于识别异常值?
用于识别多元异常值的统计或稳健统计
数据挖掘
机器学习
数据挖掘
统计数据
异常检测
无监督学习
2022-02-15 09:45:01
1个回答
多变量异常值检测可能非常棘手,有时甚至 2D 数据也难以在视觉上破译。您正在寻找类似于 95% 分位数的稳健统计处理方法。
由于正态分布的数据自然与卡方分布一致,n 维稳健统计的黄金标准是使用Mahalanobis distances然后消除马氏空间中超过 95% 或 99% 分位数的数据。
scikit-learn和R中提供了即插即用功能。
这是该方法的出色理论和实践处理:
这是一个带有一些启发式的全局观点。
此外,还有一种非常复杂的处理方法,即PCOUT异常值检测,它依赖于主成分分解。有一个相应的 R 包,但理论上的处理是在付费墙后面:
P. Filzmoser、R. Maronna、M. Werner。高维异常值识别,计算统计和数据分析,52,1694-1711,2008
希望这可以帮助!
