如果是一个矩阵,其中是测量类型(变量)的数量和是样本的数量,对具有的矩阵执行 PCA 是否正确? 如果不是,请提供一些论据,为什么这会是一个问题。
我记得听说做这样的分析是无效的,但是PCA 的维基百科页面没有提到低比率是使用该方法的潜在限制。
请注意,我是一名生物学家,旨在寻求更实际的答案(如果可能)。
如果是一个矩阵,其中是测量类型(变量)的数量和是样本的数量,对具有的矩阵执行 PCA 是否正确? 如果不是,请提供一些论据,为什么这会是一个问题。
我记得听说做这样的分析是无效的,但是PCA 的维基百科页面没有提到低比率是使用该方法的潜在限制。
请注意,我是一名生物学家,旨在寻求更实际的答案(如果可能)。
变量的 PCA。观察数 n 相对于变量数较低。1)数学方面。每当 n<=m 相关矩阵是奇异的,这意味着最后 m 个主成分中的一些是零方差,也就是说,它们不存在。一般来说,这对 PCA 来说不是问题,因为您可以忽略这些。但是,许多软件(主要是那些将 PCA 和因子分析结合在一个命令或程序中的软件)不允许您拥有奇异相关矩阵。2)统计方面。为了使您的结果可靠,您必须具有可靠的相关性;这需要相当大的样本量,该样本量始终应大于变量的数量。他们说,如果你有 m=20,你应该有 n=100 左右。但是如果你有 m=100 你应该有 n=300 左右。随着 m 的增长,最小推荐的 n/m 比例减小。
矩阵维度本身与 PCA 有效性关系不大。将改变的是对数据的解释,这完全取决于您希望如何使用结果。
PCA 非常强大,可用于查找数据中的异常或异常值。也许你在两天不同的日子里做了一个实验,在实验中使用了不同的机器等等。如果目的是获得数据的概述,无论 n/m 比率如何,PCA 都是最有效的方法之一。
如果您的主要兴趣是研究样本之间的集群或关系,那么#variables 并不是很重要。(但如果 #samples 较低,则其他类型的结果统计信息可能很重要)。
如果您查看单个变量,那么如果您的样本很少,它们的可靠性就会降低。但是,这也是任何其他方法都会遇到的问题。如果您在变量中找到有意义的模式,那么您当然不应该忽视您的发现,因为您的 n/m 比率较低。但是,很少有观察结果几乎总是有问题的,因此在解释时应谨慎,并且您拥有的样本越多,#sample/#variable 关系就越不重要。
我不认为你会从这样的分析中得到任何有用的信息,因为我的学科领域(心理学)的传说表明,10:1 的比率有利于 n 作为先决条件。在某些情况下(社区性很高),您可以以 5 或 3 比 1 的比例侥幸逃脱,但小于 1 的比例可能会导致灾难。