PCA 和保持与目标变量的关系

数据挖掘 统计数据 特征缩放
2022-02-13 13:16:56

我对 PCA 很陌生,希望能解决一些困惑。例如,我们有一个 nx100 的特征矩阵,我想把它缩小到更小的 p 维,而不会损失太多的方差。

在应用 PCA 和接收新特征矩阵 nxp 之后,我将使用 x_reduced 来预测一些目标变量 y。

我的问题是,在转换之后,新的缩减特征矩阵已经被特征向量旋转并坐在一个新的基础上。然而,我们的 y 相对于 X_reduced 并没有改变。

我不确定 y_original 和 x_reduced 如何用于训练,因为 y 相对于 x_reduced 没有改变。

有没有办法纠正这个问题,或者我没有正确考虑它?

1个回答

简短的回答是 y_original 和 x_reduced 仍然相互连接,因此使用 y_original 和 x_reduced 训练数据是安全的。虽然 x_reduced 的规模不同,但正如您通过特征向量提到的那样,它仍然代表附加到该观察的数据,只是格式不同。就实际数字的含义而言,您失去了很多可解释性,这就是为什么它看起来令人困惑的原因,但它只是 x_original 的转换表示,(希望)包含足够的 x_original 可变性以使其有用。