皮尔逊相关、协方差和余弦相似度背后的直觉

机器算法验证 自习 相关性 数理统计 描述性统计 余弦相似度
2022-03-28 13:10:52

这篇文章中,最佳答案给出了皮尔逊相关性、协方差和余弦相似性之间的出色数学解释。我在这里引用的地方(是数据矩阵)。A

  • 如果您的列(变量)居中,则散布(或共同散布,如果要严格的话)矩阵和协方差矩阵。AAAAA/(n1)
  • 如果您的列进行 z-标准化(减去列均值并除以标准差),则是 Pearson相关矩阵:相关性是标准化变量的协方差。相关性也称为线性系数。AAA/(n1)
  • 如果您列进行单位缩放(将它们的 SS,平方和设为 1),则余弦相似度矩阵。余弦也称为比例系数。AAA

除了数学解释之外,有没有直观的图比如维基百科中的皮尔逊相关(如下图)来展示这三个“相似度度量”之间的关系,即每个相似度度量能够检测到什么样的形状

在此处输入图像描述

1个回答

我们可以忽略矩阵公式,只考虑两个向量(因为矩阵公式只是对不同向量对重复的向量运算)。协方差/相关性/余弦相似性之间的一个直观/几何区别是它们对输入的不同变换的不变性。也就是说,如果我们变换,在什么类型的变换下分数会保持相同的值?xyxy

协方差在取点积之前减去均值。因此,移位是不变的。

Pearson 相关性减去均值并在取点积之前除以标准差。因此,移位和缩放是不变的。

余弦相似度在取点积之前除以范数。因此,它对缩放是不变的,但不是移位。在几何上,它可以被认为是测量两个向量之间角度的大小(顾名思义,它是角度的余弦)。

所有这些量都取决于点积,因此它们只能检测线性结构。为了解决评论中的问题,互信息是完全一般的,并且可以检测任何分布的结构。但是,从有限数据中估计比其他数量更难,必须更加小心。此外,它测量依赖性,但不指示关系的方向(例如,相关或反相关的变量可以具有相同的互信息)。当甚至不存在“关系方向”(非单调关系)时,相互信息是一种有效的依赖度量。如果目标是检测非线性但单调的关系,那么 Spearman 秩相关和 Kendall 的 tau 是不错的选择。