为什么 PCA 中的特征向量被视为单位范数?

机器算法验证 主成分分析
2022-03-23 15:26:36

在推导 PCA 的特征向量时,向量受制于它应该是单位长度的条件。为什么会这样?

2个回答

上寻找最大化投影随机向量方差的方向。具体来说,第一个 PC 可以定义为单位向量使得 RpX=(X1,,Xp)v(1)Rp

v(1)=argmaxvRp,||v||=1Var[vTX].

如果您在最大化问题中允许不是单位范数的向量,那么您将不会得到正确的解决方案,因为只要向量的范数增加,投影的方差就会变得任意大。例如,如果w=λv,具有v,wRpλ,那么

Var[wTX]=λ2Var[vTX](if Var[vTX]0).
这就是为什么您需要标准化单位规范来限制搜索并避免不正确的解决方案的原因。

它们“应该是单位长度”是不正确的;只要您使用固定的任意长度的单位向量的情况下正常工作xl

话虽如此,您希望将协方差矩阵的特征向量设为单位向量,即。,所以你可以:αkCαkTαk=1

  1. 使用相关的特征值作为的方差。λkαkTx
  2. 的椭圆体的轴x

Jolliffe 的主成分分析(简介)的第一章对这些问题进行了更详细(更好)的阐述。