我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了测量 A、B 和 C——我真正想知道的是:我是否可以进行更少的测量并停止记录 C 和/或 B 以节省时间和精力?
我发现所有 3 个变量都严重加载到我的第一个主成分上,占我数据方差的 60%。分量分数告诉我,如果我以一定的比例(aA+bB+cC)将这些变量加在一起。我可以为我的数据集中的每个案例在 PC1 上获得一个分数,并且可以将此分数用作建模中的变量,但这不允许我停止测量 B 和 C。
如果我将 A、B 和 C 在 PC1 上的载荷平方,我发现变量 A 占 PC1 方差的 65%,变量 B 占 PC1 方差的 50%,变量 C 也占 50%,即一些每个变量 A、B 和 C 所解释的 PC1 中的方差与另一个变量共享,但 A 排在首位,占的比例略多。
认为我可以只选择变量 A 或可能(aA+bB,如有必要)用于建模是否是错误的,因为该变量描述了 PC1 中的大部分方差,而这又描述了 PC1 中的大部分方差数据?
您过去采用了哪种方法?
- 即使有其他重型装载机,在 PC1 上装载最重的单个变量?
- 使用所有变量在 PC1 上的组件得分,即使它们都是重型装载机?