标准化 VS 中心变量

机器算法验证 回归 数据转换 解释 标准化 定心
2022-02-04 03:54:45

我在stats.stackexchange.com上找到了许多关于标准化自变量和居中自变量的有用帖子,但我仍然有点困惑。我在问你对我所理解的内容的评估。另外,如果以下内容不正确,请您纠正我吗?

  1. 如何标准化。标准化变量是通过减去变量的平均值并除以同一变量的标准偏差来获得的。
  2. 如何居中。仅通过减去变量的平均值即可获得居中的自变量。
  3. 标准化的原因。当回归中的变量具有不同的测量单位时,您可以对变量进行标准化以促进估计系数的解释。当你想标准化时,你必须标准化回归中的所有变量——这意味着你不会得到常数的估计值(即 B0 或截距)。
  4. 居中的原因。如果您想获得对估计常数的有意义的解释,您可以将变量居中。在这种情况下,您可以将想要的变量数量居中;您不需要将模型中的所有自变量居中。
  5. 因变量 Y。(简单问题)您是否曾经对 Y 进行中心化或标准化?
  6. 自然对数利用率。如果您的一个或多个变量不是正态分布的,您可以使用自然对数对其进行变换。只有在此转换之后,您才能标准化所有变量或将需要居中的变量居中。通常,在标准化或居中之前必须对变量进行任何转换(这里我说的是自然对数,但您可以将变量平方或将变量除以另一个变量,例如人口/km2)
  7. 解释系数标准化变量。“X1 增加 1 个标准差将使 Y 增加(或减少)-number-。”
  8. 解释系数以变量为中心。随机变量的系数:“X1 从其平均值增加 -number- 将使 Y 增加(或减少) -number-。” 常数:“当非居中变量为零且居中变量处于均值时,它表示 Y 的期望值。”
  9. 交互条款。交互项的系数的解释不应该是有问题的,无论您是否已将变量标准化或居中(仅交互的一个变量或两者)。基本上,解释是你通常给出一个交互项(例如,你对 X1 对 Y 的影响感兴趣并且 X1 与 X2 交互,X1 的总影响由它的系数 + 系数给出。交互作用X2 固定时的术语),只需记住将第 7 点或第 8 点之后的解释置于上下文中,具体取决于您所做的转换类型。
1个回答
  1. 是的
  2. 是的
  3. 您将变量标准化以比较自变量在确定结果变量中的重要性。
  4. 当您使用交互项时,您可能希望将变量居中 - 如果交互变量之一的最小值不为零,则其效果将是有意义的解释。
  5. 如果您在同一组自变量上对不同的结果变量(具有不同的尺度)进行回归,则可以有意义地比较估计的系数。
  6. 是的
  7. 是的。
  8. 是的。
  9. 是的,但请记住第 4 点。