我目前使用的预测模型依赖于具有 varimax 旋转的 PCA 来降低数据的维数(这是否合适是一个单独的问题)。
数据集由来自各种不同子组的观察组成,我想进行分析以确定是否适合在整个数据集上计算单个 PCA,或者是否应该按子组计算。对于数据集中的每个子组,我计算了两组载荷:一组仅使用来自该子组的数据,另一组使用不来自该子组的所有数据。我还使用所有数据在整个数据集上计算了一组负载。
如何量化地比较不同负载对的相似性?我的想法是在第一组中将 PC_i 的点积与第二组中的 PC_i 相乘,并希望它们接近 1 或 -1。并且第一组 PC_i 与第二组 PC_j 的点积应该接近 0。但我不确定这个指标是否合适,我不确定如何在所有组件 i=1 中聚合它, ...,n。
现在我采用加权平均值,点积的权重与相关组件的标准偏差成反比。然而,即使这是评估数据的正确方法,这仍然让我感到困惑,即这个点积的加权平均值的哪些值足以拒绝两组载荷相同的零假设。