我想结合使用主成分分析 (PCA) 和逐步回归来开发预测模型。我有 5 个自变量(它们在不同程度上相互关联,即多重共线性)和 1 个因变量。我计划遵循的步骤是:
- 对自变量进行主成分分析,并仅使用最大的 2-3 个成分重构自变量。
- 在因变量和重建的自变量之间进行逐步回归。
我的问题是:
- 上述过程有意义吗?
- 步骤 1 中自变量的重建是否会降低多重共线性?如果不是,可以做些什么来消除/减少多重共线性?
- 如果以某种方式消除了因变量之间的多重共线性,那么在逐步回归中使用交互项是否有意义?
我想结合使用主成分分析 (PCA) 和逐步回归来开发预测模型。我有 5 个自变量(它们在不同程度上相互关联,即多重共线性)和 1 个因变量。我计划遵循的步骤是:
我的问题是:
基于自变量的主成分分析(PCA)的回归当然是解决这个问题的一种方法。有关利弊的广泛讨论,请参阅此交叉验证页面,并提供更多相关主题的链接。在选择最大的组件后,我看不到您提出的回归的意义。“重构”的自变量可能会因过于依赖模型所基于的特定样本而受到影响,而逐步选择通常不是一个好主意。交叉验证将是选择要保留的组件数量的更好方法,它可以找到最小化交叉验证错误的组件数量。
在您的情况下,只有 5 个预测变量,您可能同样可以使用标准线性模型。除非您的某些变量之间具有极高的相关性,否则您不太可能遇到极端情况下可能出现的数值不稳定性问题。(如果您确实有两个高度相关的预测变量,您应该考虑使用您对主题的了解,而不是使用自动化方法来选择一个。)关注模型诊断将有助于确定线性模型是否合理。
标准回归模型提供了更容易解释的系数,并且可能比 PCA 更容易向其他人解释。对于线性模型的预测,您应该考虑包括所有 5 个自变量(即使是那些不具有“统计显着性”的变量),这既是因为逐步选择的限制,也是因为如果其他一些预测变量与因变量的关系会有所不同预测因子被删除。
如果您在标准线性回归中具有非常高的共线性,那么它应该显示在与相应系数相关的高误差中,并且您可以考虑此处提到的方法,例如岭回归,以从所有预测变量中获取有用信息而不会过度拟合。岭回归可以被认为是 PCA 回归方法的连续版本,其中主成分被差分加权,而不是完全进入或退出最终模型;请参阅统计学习要素的第 3.5 节。
对于您的第二个和第三个问题:
我在上面链接的第一页很好地解决了您的第二个问题。是的,选择有限数量的主成分有助于减少与共线性相关的问题,因为共线性变量往往会一起输入相同的主成分。两个警告:预测变量应该标准化,以便尺度差异不会驱动主成分的构建,并且不能保证捕获预测变量最大变化的成分将是与因变量最密切相关的成分。
关于您的第三个问题,如您所知,逐步方法是不合适的。我看不出为什么不能在回归中包含所选主成分之间的交互项,但它们很难解释。这也是我在这里倾向于使用原始自变量而不是将它们转换为主成分的另一个原因。
您似乎对将 PCA 用于此预测模型非常感兴趣,但请记住,很容易被特定方法所吸引。您可以很好地比较几种方法,并结合适当的交叉验证或引导技术,看看哪种方法最适合您的特定需求。如果这最终成为 PCA,那很好,但不要忽视其他可能性。