我有 22 个变量,超过 6000 个观察值。它们高度相关。我知道这些数据可以作为二分事件(目前不存在)的重要解释变量。因此,我打算通过二元逻辑回归将它们组合起来,为了避免多重共线性,我想到了使用 PCA 对原始数据进行“正交化”。然后我可以选择主要的可变模式(甚至所有 PC),并将它们用作我的回归中的解释变量,一旦 PC 根据定义是正交和独立的。
我在 MATLAB 中使用 function 运行它pca。这些变量几乎是正态分布的,并且首先在 0 +/- 2 个标准差之间进行归一化(大约为零,因为我相信保留它们的信号以供将来分析会很有趣)。一旦它们已经标准化,我还选择不在 MATLAB 函数中将数据居中。
现在,陷阱来了。我的前 2 个 PC(分数)与 r=0.7891 相关!对此有任何提示吗?关于我可能犯的错误有什么建议吗?
编辑:如果它减轻了场景,这里是一个双标图。让 PCA 以数据为中心,我相信云只会移动到原点周围,但仍保持其格式/相关性,对吗?


