是否有任何有条不紊的方法来比较从同一人群中抽取的不同样本的 PCA 结果的方向、大小等?
我故意使测试的性质含糊不清,因为我想听听所有各种可能性……例如,可能有(我在这里推测)一个比较第一个主成分大小的测试,或者测试比较主成分的方向,或者在 PCA 结果和测试统计量之间存在某种距离度量以证明它们的相等性。
就用例而言,我没有想到。只是出于好奇,也许是一种探索技巧。
是否有任何有条不紊的方法来比较从同一人群中抽取的不同样本的 PCA 结果的方向、大小等?
我故意使测试的性质含糊不清,因为我想听听所有各种可能性……例如,可能有(我在这里推测)一个比较第一个主成分大小的测试,或者测试比较主成分的方向,或者在 PCA 结果和测试统计量之间存在某种距离度量以证明它们的相等性。
就用例而言,我没有想到。只是出于好奇,也许是一种探索技巧。
据我所知,您可以想象维空间个点的云;您分别在每个云上进行 PCA,然后想要比较云之间的 PCA 结果,并测试一些更重要的 PCA 功能的显着差异。
我认为没有为此目的的任何标准测试。对于任何特定的问题,人们可能会想出一些方法或测试,但你的问题有点过于宽泛,无法尝试提出任何可能的测试。
尽管如此,想到的一种通用方法是使用置换测试。假设您想测试两个样本集(“云”)中的 PC1 是否不同。你可以计算角度它们之间。然后你汇集所有点在一起形成一朵大云,随机分成两朵大小不等的云(这通常称为“打乱标签”),运行两个 PCA 并计算两个 PC1 之间。随机拆分可以执行多次(例如,次),导致分布在云之间没有差异的零假设下预期。然后你只需比较你的实际到这个分布并获得一个-价值。
可以使用相同的方法来比较例如最大特征值。或最小的特征值。或者实际上几乎任何你想比较的东西。
除此之外,如果您想要总体上“PCA 结果相等”的检验统计量,那么也许您应该简单地使用比较两个协方差矩阵的检验(根本不做任何 PCA)。例如Box 的 M 检验(它是Bartlett 检验方差相等的多元泛化)。
假设您有样本集 2 1 和 2,并且您发现它们的第 1 到第 n 个主成分能够映射出 90% 的信息(两者的 n 可能不同,而 90 是任意的)。
您可以计算在映射到它们的主成分空间并返回后可以保留多少 set1 中的信息。设置一个阈值,以确定您愿意丢失多少信息,然后再宣布新集合不同,值得拥有自己的主要组成部分。