为什么 PCA 对异常值敏感?

机器算法验证 机器学习 主成分分析 异常值
2022-02-08 23:19:58

这个 SE 上有很多帖子讨论了主成分分析 (PCA) 的稳健方法,但我找不到一个很好的解释来解释为什么PCA 首先对异常值敏感。

1个回答

原因之一是 PCA 可以被认为是数据的低秩分解,它使总和最小化L2分解残差的范数。即如果Y是你的数据(m的向量n尺寸),和X是 PCA 基 (k的向量n尺寸),那么分解将严格最小化

YXAF2=j=1mYjXAj.2
这里A是 PCA 分解的系数矩阵,F是矩阵的 Frobenius 范数

因为 PCA 最小化了L2范数(即二次范数),所以它与最小二乘或通过对异常值敏感来拟合高斯具有相同的问题。由于离群值偏差的平方,它们将主导总规范,因此将驱动 PCA 组件。