如何使用主成分分析来选择回归变量?

机器算法验证 回归 主成分分析 模型选择
2022-03-03 01:44:22

我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了测量 A、B 和 C——我真正想知道的是:我是否可以进行更少的测量并停止记录 C 和/或 B 以节省时间和精力?

我发现所有 3 个变量都严重加载到我的第一个主成分上,占我数据方差的 60%。分量分数告诉我,如果我以一定的比例(aA+bB+cC)将这些变量加在一起。我可以为我的数据集中的每个案例在 PC1 上获得一个分数,并且可以将此分数用作建模中的变量,但这不允许我停止测量 B 和 C。

如果我将 A、B 和 C 在 PC1 上的载荷平方,我发现变量 A 占 PC1 方差的 65%,变量 B 占 PC1 方差的 50%,变量 C 也占 50%,即一些每个变量 A、B 和 C 所解释的 PC1 中的方差与另一个变量共享,但 A 排在首位,占的比例略多。

认为我可以只选择变量 A 或可能(aA+bB,如有必要)用于建模是否是错误的,因为该变量描述了 PC1 中的大部分方差,而这又描述了 PC1 中的大部分方差数据?

您过去采用了哪种方法?

  • 即使有其他重型装载机,在 PC1 上装载最重的单个变量?
  • 使用所有变量在 PC1 上的组件得分,即使它们都是重型装载机?
2个回答

您还没有指定您计划的“建模”,但听起来您在询问如何在其中选择变量A,B, 和C为了(比如说)回归第四个变量W在他们。

要查看这种方法是否出错,请考虑三个独立的正态分布变量X,Y, 和Z有单位方差。对于真正的基础模型,选择一个小常数β1, 一个非常小的常数ϵβ, 并让 (因变量)W=Z(加上一点点错误独立于X,Y, 和Z)。

假设您拥有的自变量是A=X+ϵY,B=XϵY, 和C=βZ. 然后WC是强相关的(取决于误差的方差),因为每个都接近于Z. 然而,W与任何一个都不相关A或者B. 因为β很小,第一个主成分为{A,B,C}平行于X有特征值2β. AB在这个组件上负载很重,并且C根本不加载,因为它独立于X(和Y)。然而,如果你消除C从自变量,只留下AB,您将丢弃有关因变量的所有信息,因为W,A, 和B是独立的!

此示例表明,对于回归,您需要注意自变量与因变量的相关性;你不能仅仅通过分析自变量之间的关系来逃避。

如果你只有 3 个 IV,为什么要减少它们?

也就是说,您的样本是否非常小(因此 3 个 IV 存在过度拟合的风险)?在这种情况下,考虑偏最小二乘

还是测量非常昂贵(因此,将来您只想测量一个 IV)?在这种情况下,我会考虑分别和一起查看每个 IV 的不同回归。

或者你过去是否有人过分强调简约的价值?在这种情况下,为什么不包括所有 3 个 IV?