在大气科学的统计方法中,Daniel Wilks 指出,如果预测变量之间存在非常强的相关性,多元线性回归可能会导致问题(第 3 版,第 559-560 页):
多元线性回归中可能出现的一种病态是,一组具有强互相关性的预测变量可能导致计算出不稳定的回归关系。
(...)
然后他介绍了主成分回归:
解决这个问题的一种方法是首先将预测变量转换为它们的主成分,它们之间的相关性为零。
到现在为止还挺好。但接下来,他做了一些他没有解释的陈述(或者至少没有足够详细让我理解):
如果所有主成分都保留在主成分回归中,则与传统的最小二乘法拟合完整预测变量集相比,没有任何收获。
(..) 和:
可以根据原始预测变量重新表达主成分回归,但即使只使用了一个或几个主成分预测变量,结果通常也会涉及所有原始预测变量。这种重构的回归会有偏差,尽管方差通常要小得多,从而导致整体 MSE 更小。
我不明白这两点。
当然,如果保留了所有主成分,我们使用的信息与我们在原始空间中使用预测变量时的信息相同。但是,通过在主成分空间中工作,可以消除互相关问题。我们可能仍然存在过度拟合,但这是唯一的问题吗?为什么一无所获?
其次,即使我们确实截断了主成分(可能是为了降噪和/或防止过度拟合),为什么以及如何导致有偏差的重构回归?偏向于什么方式?
书籍来源:Daniel S. Wilks,《大气科学中的统计方法》,第三版,2011 年。国际地球物理学丛书第 100 卷,学术出版社。