为什么 Daniel Wilks (2011) 说主成分回归“会有偏差”?

机器算法验证 回归 主成分分析 偏见
2022-03-09 05:55:22

大气科学的统计方法中,Daniel Wilks 指出,如果预测变量之间存在非常强的相关性,多元线性回归可能会导致问题(第 3 版,第 559-560 页):

多元线性回归中可能出现的一种病态是,一组具有强互相关性的预测变量可能导致计算出不稳定的回归关系。

(...)

然后他介绍了主成分回归:

解决这个问题的一种方法是首先将预测变量转换为它们的主成分,它们之间的相关性为零。

到现在为止还挺好。但接下来,他做了一些他没有解释的陈述(或者至少没有足够详细让我理解):

如果所有主成分都保留在主成分回归中,则与传统的最小二乘法拟合完整预测变量集相比,没有任何收获。

(..) 和:

可以根据原始预测变量重新表达主成分回归,但即使只使用了一个或几个主成分预测变量,结果通常也会涉及所有原始预测变量。这种重构的回归会有偏差,尽管方差通常要小得多,从而导致整体 MSE 更小。

我不明白这两点。

当然,如果保留了所有主成分,我们使用的信息与我们在原始空间中使用预测变量时的信息相同。但是,通过在主成分空间中工作,可以消除互相关问题。我们可能仍然存在过度拟合,但这是唯一的问题吗?为什么一无所获?

其次,即使我们确实截断了主成分(可能是为了降噪和/或防止过度拟合),为什么以及如何导致有偏差的重构回归?偏向于什么方式?


书籍来源:Daniel S. Wilks,《大气科学中的统计方法》,第三版,2011 年。国际地球物理学丛书第 100 卷,学术出版社。

1个回答

使用所有 PC 时会发生什么?

如果使用所有 PC,则得到的回归系数将与使用 OLS 回归获得的回归系数相同,因此此过程最好不要称为“主成分回归”。这是标准回归,只能以迂回的方式执行。

您在问,鉴于在 PCA 之后预测变量变得正交,怎么可能一无所获。魔鬼隐藏在回归系数从 PCA 空间到原始空间的反变换中。您需要知道的是,估计回归系数的方差与预测变量的协方差矩阵成反比。PCA 转换的预测器,我们称它们为Z,有对角协方差矩阵(因为它们不相关)。所以所有回归系数Z也是不相关的;对应于高方差 PC 的那些具有低方差(即被可靠地估计),而对应于低方差 PC 的那些具有高方差(即被估计不可靠)。当这些系数被反向转换为原始预测变量时X, 每个预测变量Xi将得到不可靠估计的一部分,因此所有系数都可能变得不可靠

所以什么也得不到。

如果只使用几台 PC,会发生什么?

如果不是所有的 PC 都保留在 PCR 中,那么得到的解决方案β^PCR通常不等于标准的普通最小二乘解β^OLS. OLS 解是无偏的,这是一个标准结果:参见Gauss-Markov 定理“不偏不倚”的意思是β^平均而言是正确的,即使它可能非常嘈杂。由于 PCR 解决方案与它不同,它会产生偏差,这意味着它平均是不正确的。但是,通常情况下它的噪声要小得多,从而导致总体上更准确的预测。

这是偏差-方差权衡的一个例子。请参阅为什么收缩起作用?进行一些进一步的一般性讨论。

在评论中,@whuber 指出 PCR 解决方案不必OLS 解决方案不同,因此不必偏见。事实上,如果因变量y与所有未包含在 PCR 模型中的低方差 PC 不相关(在总体中,而不是在样本中),则删除这些 PC 不会影响无偏性。然而,在实践中不太可能出现这种情况:PCA 是在不采取y考虑到所以有理由认为y将倾向于与所有 PC 有一定的相关性。

为什么使用高变异性 PC 是个好主意?

这不是问题的一部分,但您可能对以下主题感兴趣以供进一步阅读:顶级主成分如何保持对因变量的预测能力(甚至导致更好的预测)?