我是机器学习的初学者,我研究过模型的预测变量之间的共线性是一个大问题,因为它可能导致不可预测的模型行为和大错误。但是,与经典的线性回归不同,是否有一些模型(比如 GLM)可能与共线性“没问题”?据说经典的线性回归假设其自变量之间没有相关性。
之所以出现这个问题,是因为我正在做一个项目,该项目说“如果输入特征相互关联,最好使用广义线性模型,因为它们比线性回归表现更好。”
有人可以解释一下吗?
我是机器学习的初学者,我研究过模型的预测变量之间的共线性是一个大问题,因为它可能导致不可预测的模型行为和大错误。但是,与经典的线性回归不同,是否有一些模型(比如 GLM)可能与共线性“没问题”?据说经典的线性回归假设其自变量之间没有相关性。
之所以出现这个问题,是因为我正在做一个项目,该项目说“如果输入特征相互关联,最好使用广义线性模型,因为它们比线性回归表现更好。”
有人可以解释一下吗?
“据说经典的线性回归假设其自变量之间没有相关性”
根据您进行回归的目标,这个常见的陈述是错误的。
即使有多重共线性,你也能明白是OLS优化的解决方案。
即使有多重共线性,你也能明白是来自高斯-马尔可夫定理的最小方差线性无偏估计量。
高斯-马尔可夫定理要求的是误差项不相关。说预测变量不相关,这通常会让人感到困惑,但这确实是一个错误。
在计算机上进行数学运算时可能会出现数值不稳定,特别是当您接近完美的多重共线性时(接近奇异,在完美多重共线性或相关性的极端情况下是奇异的变量之间),但如果您的目标是预测,则多重共线性不存在固有问题。
当你想对参数进行推断时,多重共线性可能会受到伤害,这在机器学习中很少是目标。当您有多重共线性时,参数标准误差会被夸大,从而削弱您判断它们不为零的能力。从哲学上讲,如果某个预测变量与其他变量相关,也很难将其归因于某个预测变量。(想象一下,一家医院想知道它的神经外科医生是否和心脏外科医生一样多,看到心脏外科医生赚得更多,但也看到心脏外科医生有更多经验。他们赚得更多是因为他们的专业还是因为他们的经历?)
多重共线性也可能意味着您可以使用更少量的变量来获得几乎与整个变量集一样多的信息。例如,如果两个预测变量高度相关,则可能不值得同时包含两者;为了模型的简约性和回归中的参数较少,您最好省略一个,但这是一个经验问题,取决于模型设计者的判断。
进入完整的 GLM 框架,高斯-马尔可夫定理并不适用,但是当您的目标是预测而不是进行参数推断(这是机器学习中的典型目标)时,多重共线性不存在固有问题。