何时以及如何在线性回归中使用标准化解释变量

机器算法验证 回归 预测模型 参考 标准化 预测器
2022-01-17 14:23:06

我有两个关于线性回归的简单问题:

  1. 什么时候建议对解释变量进行标准化?
  2. 一旦使用标准化值进行估计,如何使用新值进行预测(应该如何标准化新值)?

一些参考资料会有所帮助。

1个回答

尽管术语是一个有争议的话题,但我更喜欢将“解释性”变量称为“预测”变量。

何时标准化预测变量:

  • 许多用于执行多元线性回归的软件将提供标准化系数,这些系数相当于您手动标准化预测变量和响应变量的非标准化系数(当然,听起来您只是在谈论标准化预测变量)。
  • 我的观点是标准化是使回归方程更有意义的有用工具。在变量的度量对解释回归方程的人没有意义的情况下尤其如此(例如,任意度量上的心理量表)。它还可以用于促进预测变量的相对重要性的可比性(尽管存在其他更复杂的方法来评估相对重要性;请参阅我的帖子进行讨论)。在度量对解释回归方程的人确实有意义的情况下,非标准化系数通常会提供更多信息。
  • 我还认为,依赖标准化变量可能会转移人们的注意力,因为我们还没有考虑过如何使变量的度量对读者更有意义。

  • Andrew Gelman 在这个话题上有很多话要说。例如,参见他关于标准化的页面,特别是Gelman(2008,Stats Med,FREE PDF)

基于标准化的预测:

  • 我不会使用标准化回归系数进行预测。
  • 如果您知道原始样本中预测变量的均值和标准差,则始终可以将标准化系数转换为非标准化系数。