用于异常值检测的稳健 PCA 与稳健的马氏距离

机器算法验证 主成分分析 异常值 协方差矩阵 强大的 异常检测
2022-02-01 12:48:03

稳健的 PCA(由Candes 等人 2009 年更早于 Netrepalli 等人 2014 年开发)是一种流行的多变量异常值检测方法,但马氏距离也可用于异常值检测,因为协方差矩阵具有稳健的正则化估计我很好奇使用一种方法相对于另一种方法的(缺点)优势。

我的直觉告诉我,两者之间最大的区别如下:当数据集“小”(在统计意义上)时,稳健的 PCA 会给出较低秩的协方差,而稳健的协方差矩阵估计会给出一个完整的 -由于 Ledoit-Wolf 正则化,秩协方差。这又如何影响异常值检测?

1个回答

本文比较了该领域的一些方法。他们将您链接到的稳健 PCA 方法称为“PCP”(主成分追踪),并将您链接到的用于稳健协方差估计的方法族称为 M 估计器。

他们认为

PCP 是为数据的统一损坏坐标设计的,而不是损坏的数据点(即异常值),因此,与 PCP 的比较对于此类数据有些不公平

并表明 PCP(又名健壮的 PCA)在某些情况下可能无法进行异常值检测。

他们还讨论了三种“子空间恢复的敌人”,即不同类型的异常值,以及哪种方法可能适合处理每一种异常值。将您自己的异常值与此处讨论的三种“敌人”进行比较可能有助于您选择一种方法。