我知道维基百科参考资料有时在这里不受欢迎,但这让我感到困惑: 维基百科 - 多重共线性
我知道是什么multicollinearity
,今天我试图弄清楚它如何/是否会影响机器学习模型的性能。
文章开头说
多重共线性不会降低整个模型的预测能力或可靠性
...但是,正如我读到的那样
这种数据冗余的主要危险是回归分析模型中的过度拟合
而且我知道过度拟合会大大增加方差,并且会严重降低性能。
这些陈述中的任何一个或两个都是错误的吗?
我知道维基百科参考资料有时在这里不受欢迎,但这让我感到困惑: 维基百科 - 多重共线性
我知道是什么multicollinearity
,今天我试图弄清楚它如何/是否会影响机器学习模型的性能。
文章开头说
多重共线性不会降低整个模型的预测能力或可靠性
...但是,正如我读到的那样
这种数据冗余的主要危险是回归分析模型中的过度拟合
而且我知道过度拟合会大大增加方差,并且会严重降低性能。
这些陈述中的任何一个或两个都是错误的吗?
在 Wikipedia 引用的第一个引用的延续中有一个重要的限定词:“多重共线性不会降低模型作为一个整体的预测能力或可靠性,至少在样本数据集中是这样”(强调添加)。
除非存在奇异设计矩阵,否则多重共线性不会阻止将模型拟合到单个数据样本。我认为这是维基百科第一个引用的重点。在存在多重共线性的情况下,回归模型可以很好地捕获数据样本,包括特定数据样本的所有特性和噪声。
当您尝试将原始数据集之外的模型应用于基础总体时,就会出现问题。如您所知,多重共线性将严重影响原始数据样本之外的性能。
与@EdM 的答案相反,根据此处的答案,如果测试集具有相同的协方差矩阵,性能不会下降。换句话说,如果测试集中变量之间的相关性相同,则系数和特征向量的组合将导致有效的结果。通常是这种情况。