机器算法验证 - 是否有用于比较样本之间主成分分解的测试/技术/方法？ - 吾爱随笔录

是否有用于比较样本之间主成分分解的测试/技术/方法？

机器算法验证假设检验主成分分析方差推理

2022-04-06 01:37:26

是否有任何有条不紊的方法来比较从同一人群中抽取的不同样本的 PCA 结果的方向、大小等？

我故意使测试的性质含糊不清，因为我想听听所有各种可能性……例如，可能有（我在这里推测）一个比较第一个主成分大小的测试，或者测试比较主成分的方向，或者在 PCA 结果和测试统计量之间存在某种距离度量以证明它们的相等性。

就用例而言，我没有想到。只是出于好奇，也许是一种探索技巧。

2个回答

据我所知，您可以想象维空间个点的云；您分别在每个云上进行 PCA，然后想要比较云之间的 PCA 结果，并测试一些更重要的 PCA 功能的显着差异。 $n$ $d$

我认为没有为此目的的任何标准测试。对于任何特定的问题，人们可能会想出一些方法或测试，但你的问题有点过于宽泛，无法尝试提出任何可能的测试。

尽管如此，想到的一种通用方法是使用置换测试。假设您想测试两个样本集（“云”）中的 PC1 是否不同。你可以计算角度 $\theta$ 它们之间。然后你汇集所有 $2n$ 点在一起形成一朵大云，随机分成两朵大小不等的云 $n$ （这通常称为“打乱标签”），运行两个 PCA 并计算 $\theta$ 两个 PC1 之间。随机拆分可以执行多次（例如， $10\:000$ 次），导致分布 $\theta$ 在云之间没有差异的零假设下预期。然后你只需比较你的实际 $\theta$ 到这个分布并获得一个 $p$ -价值。

可以使用相同的方法来比较例如最大特征值。或最小的特征值。或者实际上几乎任何你想比较的东西。

除此之外，如果您想要总体上“PCA 结果相等”的检验统计量，那么也许您应该简单地使用比较两个协方差矩阵的检验（根本不做任何 PCA）。例如Box 的 M 检验（它是Bartlett 检验方差相等的多元泛化）。

假设您有样本集 2 1 和 2，并且您发现它们的第 1 到第 n 个主成分能够映射出 90% 的信息（两者的 n 可能不同，而 90 是任意的）。

您可以计算在映射到它们的主成分空间并返回后可以保留多少 set1 中的信息。设置一个阈值，以确定您愿意丢失多少信息，然后再宣布新集合不同，值得拥有自己的主要组成部分。

其它你可能感兴趣的问题

上一篇了解 scipy Kolmogorov-Smirnov 测试下一篇为什么 adaboost 以如此小的标准差预测概率？