我一直在盯着维基百科页面寻找距离相关性,它似乎以如何计算为特征。虽然我可以进行计算,但我很难得到什么距离相关性度量以及为什么计算看起来像它们一样。
是否有(或许多)更直观的距离相关性表征可以帮助我理解它测量的内容?
我意识到要求直觉有点模糊,但如果我知道我要求什么样的直觉,我可能一开始就不会问。关于两个随机变量之间的距离相关性的直觉,我也会很高兴(即使距离相关性是在两个随机向量之间定义的)。
我一直在盯着维基百科页面寻找距离相关性,它似乎以如何计算为特征。虽然我可以进行计算,但我很难得到什么距离相关性度量以及为什么计算看起来像它们一样。
是否有(或许多)更直观的距离相关性表征可以帮助我理解它测量的内容?
我意识到要求直觉有点模糊,但如果我知道我要求什么样的直觉,我可能一开始就不会问。关于两个随机变量之间的距离相关性的直觉,我也会很高兴(即使距离相关性是在两个随机向量之间定义的)。
我的这个回答没有正确回答这个问题。请阅读评论。
让我们比较一下通常的协方差和距离协方差。两者的有效部分是它们的分子。(分母只是平均。)协方差的分子是与一个点的偏差的求和叉积(= 标量积),平均值:(带上标作为该质心)。用这种风格重写表达式:, 和代表点的偏差从质心,即它到质心的(有符号)距离。协方差由所有点上两个距离的乘积之和定义。
距离协方差如何?如你所知,分子是. 是不是很像我们上面写的?有什么区别?这里,距离是在不同的数据点之间,而不是在数据点和上面的平均值之间。距离协方差由所有点对上两个距离的乘积之和定义。
标量积(两个实体之间 - 在我们的例子中,变量和) 基于与一个固定点的共同距离,当数据沿一条直线排列时最大化。当数据沿直线局部分段排列时,基于与可变点的共距的标量积最大化;换句话说,当数据整体表示任何形状的链时,任何形状的依赖关系。
事实上,当关系更接近完美线性且方差更大时,通常的协方差更大。如果将方差标准化为固定单位,则协方差仅取决于线性关联的强度,因此称为 Pearson相关性。而且,正如我们所知道的 - 并且只是有一些直觉 - 当关系更接近完美曲线并且数据传播更大时,距离协方差更大。如果将价差标准化为固定单位,则协方差仅取决于某些曲线关联的强度,然后称为布朗(距离)相关。