您不会选择原始 99 (100-1) 个变量的子集。
每个主成分都是所有 99 个预测变量(x 变量、IVs、...)的线性组合。如果您使用前 40 个主成分,它们中的每一个都是所有 99 个原始预测变量的函数。(至少对于普通的 PCA - 有稀疏/正则化版本,例如 Zou、Hastie 和 Tibshirani 的SPCA,它们将产生基于较少变量的组件。)
考虑两个正相关变量的简单情况,为简单起见,我们假设它们是相同的变量。那么第一个主成分将是两个变量之和的(小数)倍数,第二个将是两个变量之和的(小数)倍数;如果两者的可变性不同,则第一个主成分将对可变性更大的一个赋予更大的权重,但它仍然会同时涉及两者。
因此,您从 99 个 x 变量开始,通过对每个原始变量应用相应的权重来计算 40 个主成分。[注意在我的讨论中,我假设和已经居中。]yX
然后,您可以像使用任何多元回归问题一样使用 40 个新变量,就好像它们本身就是预测变量一样。(在实践中,有更有效的方法来获得估计,但是让我们把计算方面放在一边,只处理一个基本的想法)
关于你的第二个问题,不清楚你所说的“逆转 PCA”是什么意思。
您的 PC 是原始变量的线性组合。假设您的原始变量在中,并且您计算(其中是并且是组件的主成分权重),那么您通过回归估计XZ=XWXn×99W99×4040y^=Zβ^PC
然后你可以写说(其中,显然),所以你可以把它写成原始预测变量的函数;我不知道这是否是您所说的“反转”,但这是查看和之间原始关系的一种有意义的方式。当然,它与通过估计原始 X 的回归得到的系数不同——它是通过进行 PCA 进行正则化的;即使您以这种方式获得每个原始 X 的系数,它们也只有您安装的组件数量的 df。y^=Zβ^PC=XWβ^PC=Xβ^∗β^∗=Wβ^PCyX
另请参阅有关主成分回归的维基百科。