为什么我们不在相关系数的分母中使用差异的绝对值而不是平方差异?

机器算法验证 相关性
2022-03-11 13:56:01

而不是我们为什么不使用这个: (i(xix¯)2(yiy¯)2))0.5i|xix¯||yiy¯|

1个回答

使用平方差的原因有很多,包括

  1. 与高斯分布的关系,其中平方差起核心作用(正态分布的概率密度函数是缩放平方差的反对数)
  2. 如果分布不是太重,最好对远离均值的值给予很大的权重(例如,通过平方与均值的差值),而其他加权方案将导致相对低效的估计量
  3. r2从 0 缩放到 1,并且在线性模型中有多个预测变量的情况下,半与每个预测变量解释的部分平方和相关联。换句话说,平方和可以划分为“加起来”的分量效应。在不相关的预测变量的情况下,平方和半部分的回归和加起来是由于预测变量的组合而导致的解释变异的总量。在绝对差异尺度上没有对解释的变化进行相应的划分。R2R2
  4. 方差和协方差有着悠久的历史,许多概率模型都是根据它们来描述的(例如,多元正态分布)。

正如我在回归建模策略中讨论的那样,基于基尼平均差(所有可能值对的平均绝对差)的绝对差度量但他们不分区。预测变量子集的 -index 可以大于整个线性预测变量 -index 。另一方面,多变量模型子集的半部分必须不大于整体模型gggXβ^R2R2