如果联合分布是多元正态分布,为什么 Pearson 的 ρ 只是一个详尽的关联度量?

机器算法验证 相关性 正态分布 皮尔逊-r 多元正态分布
2022-02-11 19:34:20

这个断言是在对这个问题的最高回答中提出的我认为“为什么”的问题有很大的不同,它需要一个新的话题。谷歌搜索“详尽的关联测量”没有产生任何点击,我不确定这句话是什么意思。

2个回答

变量可以以 Pearson 相关性完全看不到的方式关联。

在多元正态分布中,Pearson 相关是“穷举的”,因为唯一可能的关联由ρ. 但是对于其他分布(即使是那些具有正常边距的分布),可能存在没有相关性的关联。这是 3 个正态随机变量(x,y 和 x,z)的几个图;它们高度相关(如果你告诉我x-variate,我会告诉你另外两个,如果你告诉我y我可以告诉你z),但它们都是不相关的。

在此处输入图像描述

这是关联但不相关变量的另一个示例:

在此处输入图像描述

(基本点是关于分布的,尽管我在这里用数据来说明它。)

即使变量是相关的,Pearson 相关性通常也不会告诉您如何- 您可以获得具有相同 Pearson 相关性的非常不同形式的关联,(但是当变量是多元正态时,只要我告诉你您可以准确地说出标准化变量之间的相关性)。

因此,皮尔逊相关性并没有“耗尽”变量关联的方式——它们可以关联但不相关,或者它们可以相关但以完全不同的方式关联。[不完全由相关性捕获的关联可能发生的方式多种多样——但如果其中任何一种发生,你就不可能有一个多元正态。但是请注意,我的讨论中没有任何内容暗示这(知道ρ定义可能的关联)表征多元正态,即使标题引用似乎暗示了它。]

(解决多元关联的一种常见方法是通过 copulas。现场有许多与 copulas 相关的问题;您可能会发现其中一些很有帮助)

最好将多元分布中的“关联度量”理解为包含在任意重新调整和重新调整值时保持不变的所有属性。这样做可以将均值和方差更改为任何理论上允许的值(方差必须为正;均值可以是任何值)。

相关系数(“Pearson'sρ") 然后完全确定多元正态分布。查看这一点的一种方法是查看任何公式定义,例如密度函数或特征函数的公式。它们涉及均值、方差和协方差——但协方差和相关性可以当您知道差异时,可以相互推导出来。

多元正态分布族并不是唯一具有此属性的分布族。例如,任何多元 t 分布(对于自由度超过2) 具有明确定义的相关矩阵,并且完全由其前两个矩确定。