多重共线性和预测性能

机器算法验证 回归 物流 预言 多重共线性 假设
2022-03-04 16:42:28

看这个声明:

“多重共线性不会影响预测能力,但个别预测变量对响应变量的影响可能计算错误。”

这是矛盾的吗?由于自变量的参数估计错误,这不会影响预测性能吗?

如果我只关心预测性能而不关心模型的推理性质,我是否必须关心多重共线性?我想一旦我能接受“黑盒”,我就应该使用更强大的“非参数”模型,无论如何都不做任何假设......?

1个回答

假设您已经在训练数据集上训练了一个模型,并且想要预测测试/保留数据集中的一些值。如果训练数据集和测试数据集中变量之间的协方差不同,则训练数据集中的多重共线性只会降低测试数据集中的预测性能。如果协方差结构(以及因此的多重共线性)在训练和测试数据集中相似,那么它不会对预测造成问题。由于测试数据集通常是完整数据集的随机子集,因此假设协方差结构相同通常是合理的。因此,多重共线性通常不是这个目的的问题。

让我们举一个简单的例子。假设您想根据其他一些变量来预测一组人的身高:体重、臂长、腿长等。不出所料,您会发现这些变量在您的训练数据集中都具有很强的相关性。但是,如果您可以假设手臂长度、腿长、体重等在训练和测试数据集中具有相似的相关性,那么您可以继续使用它们来成功预测测试数据集中的人的身高。如果由于某种原因您的测试数据集具有不同的协方差结构(假设它包含一群长臂篮球运动员),那么您的预测将不会是好的。


至于为什么多重共线性不是预测问题而是推理问题:让我们以两个完全相关的变量x1x2的极端情况为例(即r = 1)。当在 2 个回归中单独使用来预测变量y时,因此两者都返回相同的系数值 - 假设两种情况下的系数值都是 3。

当在多元回归中同时使用x1x2来预测y时,现在有无限范围的可能的系数组​​合同样有效。例如,x1的系数可以为 3,x2的系数可以为 0。反过来同样有效:x1的系数可以为 0,x2的系数可以为 3。

从推理的角度来看,这导致了巨大的不确定性,因为每个单独的参数都受到很差的约束。但重要的是,尽管x1x2在这组假设模型中存在巨大差异,但所有模型都返回相同的y预测。所以从预测的角度来看,所有这些模型都是等价的。如果您只想预测一些新值,您可以选择这些模型中的任何一个——当然假设x1x2在您的测试数据集中仍然完全相关。