我不太清楚标准化是什么意思,在寻找历史时,我找到了两个有趣的参考资料。
这篇最近的文章在引言中有一个历史性的概述:
García, J.、Salmerón, R.、García, C. 和 López Martín, MDM (2016)。岭回归中变量的标准化和共线性诊断。国际统计评论,84 (2), 245-266
我发现另一篇有趣的文章声称表明标准化或居中根本没有任何效果。
Echambadi, R., & Hess, JD (2007)。均值居中并不能缓解缓和多元回归模型中的共线性问题。营销科学,26 (3), 438-445。
对我来说,这种批评似乎有点像忽略了中心思想的要点。
Echambadi 和 Hess 唯一表明的是模型是等价的,并且您可以用非中心模型的系数来表示中心模型的系数,反之亦然(导致系数的相似方差/误差)。
Echambadi 和 Hess 的结果有点微不足道,我相信任何人都没有声称这(系数之间的关系和等价性)是不真实的。没有人声称这些系数之间的关系是不正确的。这不是集中变量的重点。
居中的要点是,在具有线性和二次项的模型中,您可以选择不同的坐标比例,这样您最终会在变量之间没有或没有相关性的框架中工作。说你想表达时间的影响t在某个变量上Y并且您希望在以公元 1998 年到 2018 年表示的某个时期内执行此操作。在这种情况下,居中技术所要解决的问题是
“如果你表达线性和二次依赖的系数对时间的准确性,那么当你使用时间时它们会有更大的方差t范围从 1998 年到 2018 年,而不是中心时间t′范围从 -10 到 10"。
Y=a+bt+ct2
相对
Y=a′+b′(t−T)+c′(t−T)2
当然,这两个模型是等价的,而不是居中,您可以通过计算如下系数获得完全相同的结果(因此估计系数的相同误差)
abc===a′−b′T+c′T2b′−2c′Tc′
当您进行方差分析或使用诸如R2那么就没有区别了。
然而,这根本不是均值居中的重点。均值居中的意义在于,有时人们想要传达系数及其估计的方差/准确性或置信区间,对于这些情况,模型的表达方式确实很重要。
示例:物理学家希望将某个参数 X 的一些实验关系表达为温度的二次函数。
T X
298 1230
308 1308
318 1371
328 1470
338 1534
348 1601
358 1695
368 1780
378 1863
388 1940
398 2047
报告系数的 95% 区间不是更好吗?
2.5 % 97.5 %
(Intercept) 1602 1621
T-348 7.87 8.26
(T-348)^2 0.0029 0.0166
代替
2.5 % 97.5 %
(Intercept) -839 816
T -3.52 6.05
T^2 0.0029 0.0166
在后一种情况下,系数将由看似大的误差范围表示(但没有说明模型中的误差),此外,误差分布之间的相关性将不清楚(在第一种情况下,误差系数不会相关)。
如果有人像 Echambadi 和 Hess 一样声称这两个表达式是等价的并且居中无关紧要,那么我们应该(因此使用类似的论点)也声称模型系数的表达式(当没有自然截距和选择是任意的)在置信区间或标准误差方面是没有意义的。
在这个问题/答案中,显示的图像也显示了当系数估计中的误差相关时,95% 置信区间如何不能说明系数的确定性(至少不是直观地)。
