这个 SE 上有很多帖子讨论了主成分分析 (PCA) 的稳健方法,但我找不到一个很好的解释来解释为什么PCA 首先对异常值敏感。
为什么 PCA 对异常值敏感?
机器算法验证
机器学习
主成分分析
异常值
2022-02-08 23:19:58
1个回答
原因之一是 PCA 可以被认为是数据的低秩分解,它使总和最小化分解残差的范数。即如果是你的数据(的向量尺寸),和是 PCA 基 (的向量尺寸),那么分解将严格最小化
这里是 PCA 分解的系数矩阵,是矩阵的 Frobenius 范数
因为 PCA 最小化了范数(即二次范数),所以它与最小二乘或通过对异常值敏感来拟合高斯具有相同的问题。由于离群值偏差的平方,它们将主导总规范,因此将驱动 PCA 组件。
其它你可能感兴趣的问题