是否有用于比较样本之间主成分分解的测试/技术/方法?

机器算法验证 假设检验 主成分分析 方差 推理
2022-04-06 01:37:26

是否有任何有条不紊的方法来比较从同一人群中抽取的不同样本的 PCA 结果的方向、大小等?

我故意使测试的性质含糊不清,因为我想听听所有各种可能性……例如,可能有(我在这里推测)一个比较第一个主成分大小的测试,或者测试比较主成分的方向,或者在 PCA 结果和测试统计量之间存在某种距离度量以证明它们的相等性。

就用例而言,我没有想到。只是出于好奇,也许是一种探索技巧。

2个回答

据我所知,您可以想象维空间个点的云;您分别在每个云上进行 PCA,然后想要比较云之间的 PCA 结果,并测试一些更重要的 PCA 功能的显着差异。nd

我认为没有为此目的的任何标准测试。对于任何特定的问题,人们可能会想出一些方法或测试,但你的问题有点过于宽泛,无法尝试提出任何可能的测试。

尽管如此,想到的一种通用方法是使用置换测试。假设您想测试两个样本集(“云”)中的 PC1 是否不同。你可以计算角度θ它们之间。然后你汇集所有2n点在一起形成一朵大云,随机分成两朵大小不等的云n(这通常称为“打乱标签”),运行两个 PCA 并计算θ两个 PC1 之间。随机拆分可以执行多次(例如,10000次),导致分布θ在云之间没有差异的零假设下预期。然后你只需比较你的实际θ到这个分布并获得一个p-价值。

可以使用相同的方法来比较例如最大特征值。或最小的特征值。或者实际上几乎任何你想比较的东西。

除此之外,如果您想要总体上“PCA 结果相等”的检验统计量,那么也许您应该简单地使用比较两个协方差矩阵的检验(根本不做任何 PCA)。例如Box 的 M 检验(它是Bartlett 检验方差相等的多元泛化)。

假设您有样本集 2 1 和 2,并且您发现它们的第 1 到第 n 个主成分能够映射出 90% 的信息(两者的 n 可能不同,而 90 是任意的)。

您可以计算在映射到它们的主成分空间并返回后可以保留多少 set1 中的信息。设置一个阈值,以确定您愿意丢失多少信息,然后再宣布新集合不同,值得拥有自己的主要组成部分。