距离协方差何时不如线性协方差合适?

机器算法验证 相关性 协方差 距离协方差
2022-02-16 03:13:16

我刚刚(模糊地)被介绍到brownian/distance covariance/correlation在测试依赖性时,它似乎在许多非线性情况下特别有用。但它似乎并不经常使用,即使协方差/相关经常用于非线性/混沌数据。

这让我认为距离协方差可能存在一些缺点。那么它们是什么,为什么不是每个人都总是使用距离协方差?

2个回答

根据我阅读下面列出的参考资料的印象,我试图收集一些关于距离协方差的评论。但是,我不认为自己是该主题的专家。欢迎评论、更正、建议等。

正如原始问题中所要求的那样,这些评论(强烈)偏向于潜在的缺点

在我看来,潜在的缺点如下:

  1. 该方法是新的我的猜测是,这是目前缺乏人气的最大因素。概述距离协方差的论文始于 2000 年代中期,一直发展到今天。上面引用的论文是最受关注(炒作?)的论文,它还不到三年。相比之下,相关性和类似相关性度量的理论和结果已经落后了一个多世纪。
  2. 基本概念更具挑战性Pearson 的乘积-矩相关性,在操作层面上,可以很容易地向没有微积分背景的大学新生解释。可以布置一个简单的“算法”观点,并且易于描述几何直觉。相比之下,在距离协方差的情况下,即使是成对欧几里得距离的乘积之和的概念也相当困难,并且关于随机过程的协方差概念远远超出了可以向此类观众合理解释的范围.
  3. 它的计算要求更高计算测试统计量的基本算法是样本量中的对于小样本来说,这没什么大不了的,但对于大样本来说,它变得更加重要。O(n2)O(n)
  4. 检验统计量不是自由分布的,即使是渐近的。人们可能希望,对于与所有备选方案一致的检验统计量,分布(至少是渐近的)可能独立于原假设下这不是距离协方差的情况,因为即使样本量趋于无穷大,零值下的分布也取决于确实,分布均由分布界定,这允许计算保守的临界值。XYXYχ12
  5. 的一对一变换。在双变量正常情况下|ρ|这并不是真正的缺点,甚至可能被视为一种优势。但是,如果人们接受数据的二元正态近似(这在实践中可能很常见),那么使用距离相关性代替标准程序几乎没有什么好处。
  6. 未知的电源属性与所有备选方案保持一致本质上保证了距离协方差对某些备选方案必须具有非常低的功效。在许多情况下,人们愿意放弃一般性,以便获得额外的权力来对抗特定的感兴趣的替代方案。原始论文显示了一些示例,其中他们声称相对于标准相关指标具有较高的功效,但我相信,回到上面的 (1.),它对替代品的行为还没有得到很好的理解。

重申一下,这个答案可能非常消极。但是,这不是本意。距离协方差有一些非常漂亮和有趣的想法,它的相对新颖性也为更全面地理解它开辟了研究途径。

参考资料

  1. GJ Szekely 和 ML Rizzo (2009),布朗距离协方差安。应用程序。统计学家。, 卷。3,没有。4, 1236–1265。
  2. GJ Szekely、ML Rizzo 和 NK Bakirov (2007),通过距离相关性测量和测试独立性安。统计学家。, 卷。35, 2769–2794。
  3. R. Lyons (2012),度量空间中的距离协方差Ann。概率。(出现)。

我很可能遗漏了一些东西,但仅仅量化两个变量之间的非线性依赖似乎并没有太大的回报。它不会告诉你关系的形状。它不会给你任何方法来预测另一个变量。以此类推,在进行探索性数据分析时,有时会使用黄土曲线(局部加权散点图平滑器)作为查看数据是否最好用直线、二次、三次等建模的第一步。但是在和本身并不是一个非常有用的预测工具。这只是寻找一个可行的方程来描述双变量形状的方法的第一个近似值。与黄土(或距离协方差结果)不同,该方程可以构成验证模型的基础。