机器算法验证 - 如何评估两组主成分分析载荷的相似性 - 吾爱随笔录

我目前使用的预测模型依赖于具有 varimax 旋转的 PCA 来降低数据的维数（这是否合适是一个单独的问题）。

数据集由来自各种不同子组的观察组成，我想进行分析以确定是否适合在整个数据集上计算单个 PCA，或者是否应该按子组计算。对于数据集中的每个子组，我计算了两组载荷：一组仅使用来自该子组的数据，另一组使用不来自该子组的所有数据。我还使用所有数据在整个数据集上计算了一组负载。

如何量化地比较不同负载对的相似性？我的想法是在第一组中将 PC_i 的点积与第二组中的 PC_i 相乘，并希望它们接近 1 或 -1。并且第一组 PC_i 与第二组 PC_j 的点积应该接近 0。但我不确定这个指标是否合适，我不确定如何在所有组件 i=1 中聚合它， ...，n。

现在我采用加权平均值，点积的权重与相关组件的标准偏差成反比。然而，即使这是评估数据的正确方法，这仍然让我感到困惑，即这个点积的加权平均值的哪些值足以拒绝两组载荷相同的零假设。