时,PCA 是否合适?n < pn<p

机器算法验证 主成分分析 小样本
2022-03-14 11:38:45

这个问题是我几周前问的一个问题的延伸: 当主要目标是仅估计少数组件时,PCA 或 FA 的最小样本量?

我将重申我对在的情况下使用 PCA 感兴趣。并且通常只对将前几个 PC 轴用于描述目的或将其用作将多个维度减少为一个的“合成”变量感兴趣。 np

我今天的问题围绕着 Legendre & Legendre 的第三版“数值生态学”文本。在第 450 页,他们指出:

全秩离散矩阵 [variance-covariance] 不能使用小于或等于描述符数量来估计。时,由于总共有DF,因此得到矩阵的秩在这种情况下,的特征分解产生实数和空特征值。在尊重它们的距离的同时定位维度。一个 PCA,其中Snpnpn1Sp(n1)S(n1)p(n1)n(n1)np产生大于的特征值和对应的特征向量和主成分。" (n1)0(n1)

换句话说,我相信他们暗示可以在的数据集上使用 PCA ,只要您只对使用或更少的 PC 感兴趣(就像我一样)。 np(n1)

如果您有意见,我对您对此(他们的主张和我的解释)的意见感兴趣;并且会感谢任何可能证实这一说法的其他文献。

1个回答

是的,你当然可以做到。我不知道在生态学中的应用,但您可能有兴趣知道这广泛用于遗传学(流行病学和种群遗传学),,通常个人和基因型。npn=10005000p=500000

为了调整人口混合的分析,使用前 10 或 50 个 PC。前两台 PC 已经提供了大量信息,如Novembre J (2008)所示。请特别注意图 1,您可以看到从基因组数据中获得的两台 PC 大致检索了欧洲人口的空间排列。