如果两个变量的相关性为 0,为什么它们不一定是独立的?零相关变量在特殊情况下是否独立?如果可能的话,我正在寻找一个直观的解释,而不是一个高度技术性的解释。
为什么零相关并不一定意味着独立
相关性衡量两个给定变量之间的线性关联,并且它没有义务检测任何其他形式的关联。
因此,这两个变量可能以其他几种非线性方式相关联,并且相关性无法与独立案例区分开来。
作为一个非常具有指导意义、人为且不现实的示例,可以考虑 使得对于和。请注意,它们不仅是关联的,而且其中一个是另一个的函数。尽管如此,它们的相关性为 0,因为它们的关联与相关性可以检测到的关联正交。
“相关性”一词的使用普遍缺乏严谨性,原因很简单,它可能具有广泛不同的假设和含义。最简单、最松散和最常见的用法是静态随机变量对之间存在某种模糊的关联、关系或缺乏独立性。
在这里,所指的默认度量通常是Pearson相关性,它是两个连续分布的变量之间的成对线性关联的标准化度量。Pearson最常见的误用之一是将其报告为百分比。这绝对不是百分比。Pearson相关性r介于 -1.0 和 +1.0 之间,其中 0 表示没有线性关联。使用Pearson相关性作为默认值的其他不那么广为人知的问题是,它实际上是一种非常严格的、非鲁棒性的线性度量,需要区间尺度的变量作为输入(参见 Paul Embrechts 关于风险管理中的相关性和依赖性:此处的属性和陷阱:https ://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf )。
Embrechts 指出,有许多关于依赖的错误假设始于对这些关系的基本结构和几何形状的假设:
这些谬误源于一个天真的假设,即椭圆世界的依赖性质也适用于非椭圆世界
Embrechts 指出 copulas是金融和风险管理中使用的更广泛的依赖度量类别,其中Pearson相关性只是其中一种。
哥伦比亚大学统计系在 2013-2014 学年专注于加深对依赖结构的理解:例如,线性、非线性、单调、秩、参数、非参数、潜在的高度复杂性和在尺度上的巨大差异。这一年以为期 3 天的研讨会和会议结束,汇集了该领域的大多数顶级贡献者 ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )。
这些贡献者包括 Reshef Brothers,现在因 2011 年的科学论文Detecting Novel Associations in Large Data Sets http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf而闻名已受到广泛批评(参见 AndrewGelman.com 以获得良好的概述,与哥伦比亚活动同时发布:http://andrewgelman.com/2014/03/14/maximal-information-coefficient )。Reshef 夫妇在他们的演讲中解决了所有这些批评(可在哥伦比亚会议网站上找到),以及一种效率更高的 MIC 算法。
许多其他领先的统计学家出席了本次活动,包括现在在华盛顿 NSF 工作的 Gabor Szekely。Szekely 发展了他的距离和部分距离相关性。Deep Mukhopadhay,Temple U,展示了他的统一统计算法——一个数据科学统一算法的框架——基于与 Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/完成的工作。还有许多其他人。对我来说,更有趣的主题之一是广泛利用和使用 Reproduce Kernel Hilbert Space (RKHS) 和卡方。如果在本次会议上有一种依赖结构的模式方法,那就是 RKHS。
典型的介绍性统计教科书在处理依赖性方面敷衍了事,通常依赖于对循环或抛物线关系的同一组可视化的表示。更复杂的文本将深入研究Anscombe 的四重奏,这是四个不同数据集的可视化,具有相似、简单的统计属性,但关系却大不相同: https ://en.wikipedia.org/wiki/Anscombe%27s_quartet
本次研讨会的一大亮点是可视化和呈现的大量依赖结构和关系,远远超出了标准的敷衍处理。例如,Reshefs 有几十个缩略图,它们仅代表可能的非线性样本。Deep Mukhopadhay 拥有令人惊叹的高度复杂关系的视觉效果,看起来更像是喜马拉雅山脉的卫星视图。统计和数据科学教科书作者需要注意。
随着这些高度复杂的成对依赖结构的开发和可视化在哥伦比亚会议结束后,我质疑多元统计模型捕捉这些非线性和复杂性的能力。
这取决于您对“相关性”的确切定义,但构造退化案例并不难。“独立”可能意味着“完全没有预测能力”,就像“线性相关”一样。
的域是 ,则线性相关不会表示依赖于 ) 。
基本上,Y 对 X 的依赖性意味着 Y 值的分布取决于 X 值的某种方式。这种依赖性可以取决于 Y 的平均值(大多数答案中出现的通常情况)或任何其他特征Y。
例如,让 X 为 0 或 1。如果 X = 0,则让 Y 为 0,如果 X= 1,让 Y 为 -1、0 或 1(概率相同)。X 和 Y 不相关。平均而言,Y 不依赖于 X,因为无论 X 是什么值,Y 的平均值都是 0。但显然 Y 值的分布取决于 X 值。在这种情况下,例如,当X=0时Y的方差为0,当X=1时>0,因此至少存在对方差的依赖,即存在依赖。
所以,线性相关只显示了一种对均值的依赖(线性依赖),而这又只是依赖的一种特殊情况。