变量和共线性的标准化

机器算法验证 多重共线性
2022-03-12 02:24:24

共线性会在各种回归问题中造成一定的问题。特别是它可以使参数估计具有高方差和不稳定。

已经提出了各种方法来处理这个问题,包括岭回归、偏最小二乘回归、主成分回归、删除变量和获取更多数据。

一种有争议的方法是对自变量进行标准化或缩放,许多专家表示这是一个好主意(例如 Garcia)或坏主意(例如 Belsley)。Belsley 的问题似乎是(在非技术方面)更换 IV 只是将问题推到了地毯下。但其他专家似乎并不同意。作者在捍卫自己的立场时往往会变得相当激烈。

当我做我的论文(关于共线性诊断)时,我发现贝尔斯利的论点很有说服力,但那是很久以前的事了(我在 1999 年获得了学位)。

我正在寻找专家指导或任何当前公正的评论文章。

1个回答

我不太清楚标准化是什么意思,在寻找历史时,我找到了两个有趣的参考资料。

这篇最近的文章在引言中有一个历史性的概述:

García, J.、Salmerón, R.、García, C. 和 López Martín, MDM (2016)。岭回归中变量的标准化和共线性诊断。国际统计评论,84 (2), 245-266

我发现另一篇有趣的文章声称表明标准化或居中根本没有任何效果。

Echambadi, R., & Hess, JD (2007)。均值居中并不能缓解缓和多元回归模型中的共线性问题。营销科学,26 (3), 438-445。


对我来说,这种批评似乎有点像忽略了中心思想的要点。

Echambadi 和 Hess 唯一表明的是模型是等价的,并且您可以用非中心模型的系数来表示中心模型的系数,反之亦然(导致系数的相似方差/误差)。

Echambadi 和 Hess 的结果有点微不足道,我相信任何人都没有声称这(系数之间的关系和等价性)是不真实的。没有人声称这些系数之间的关系是不正确的。这不是集中变量的重点。

居中的要点是,在具有线性和二次项的模型中,您可以选择不同的坐标比例,这样您最终会在变量之间没有或没有相关性的框架中工作。说你想表达时间的影响t在某个变量上Y并且您希望在以公元 1998 年到 2018 年表示的某个时期内执行此操作。在这种情况下,居中技术所要解决的问题是

“如果你表达线性和二次依赖的系数对时间的准确性,那么当你使用时间时它们会有更大的方差t范围从 1998 年到 2018 年,而不是中心时间t范围从 -10 到 10"。

Y=a+bt+ct2

相对

Y=a+b(tT)+c(tT)2

当然,这两个模型是等价的,而不是居中,您可以通过计算如下系数获得完全相同的结果(因此估计系数的相同误差)

a=abT+cT2b=b2cTc=c

当您进行方差分析或使用诸如R2那么就没有区别了。

然而,这根本不是均值居中的重点。均值居中的意义在于,有时人们想要传达系数及其估计的方差/准确性或置信区间,对于这些情况,模型的表达方式确实很重要。

示例:物理学家希望将某个参数 X 的一些实验关系表达为温度的二次函数。

  T   X
  298 1230
  308 1308
  318 1371
  328 1470
  338 1534
  348 1601
  358 1695
  368 1780
  378 1863
  388 1940
  398 2047

报告系数的 95% 区间不是更好吗?

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

代替

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

在后一种情况下,系数将由看似大的误差范围表示(但没有说明模型中的误差),此外,误差分布之间的相关性将不清楚(在第一种情况下,误差系数不会相关)。

如果有人像 Echambadi 和 Hess 一样声称这两个表达式是等价的并且居中无关紧要,那么我们应该(因此使用类似的论点)也声称模型系数的表达式(当没有自然截距和选择是任意的)在置信区间或标准误差方面是没有意义的。

在这个问题/答案中,显示的图像也显示了当系数估计中的误差相关时,95% 置信区间如何不能说明系数的确定性(至少不是直观地)。

图片