据我了解,我们可以通过使用方程对协方差进行归一化来获得相关性
其中是的标准差。
我担心的是如果标准偏差等于零怎么办?是否有任何条件保证它不能为零?
谢谢。
据我了解,我们可以通过使用方程对协方差进行归一化来获得相关性
其中是的标准差。
我担心的是如果标准偏差等于零怎么办?是否有任何条件保证它不能为零?
谢谢。
确实,如果您的 SD 之一为 0,则该等式未定义。但是,考虑这一点的更好方法是,如果您的 SD 之一为 0,则没有相关性。用松散的概念术语来说,相关性告诉您一个变量如何随着另一个变量的移动而移动。SD 为 0 意味着变量没有“移动”。您必须有一个常数向量,例如rep(constant, n_times)
.
当我们谈论均值和标准差以及相关性时,要考虑的另一件事是潜在的假设。
如果我们谈论的是数据样本,一个常见的假设是数据是(至少近似地)正态分布的,或者可以转换成正态分布(例如通过对数转换)。如果您观察到标准偏差为零,则有两种情况:标准偏差实际上是非零的,但非常小,因此您拥有的数据集的样本都在平均值上(例如,这可能发生如果您以粗略的精度测量数据);或模型指定错误。
在第二种情况下,标准偏差以及相关性是无意义的度量。
更一般地,基础分布必须都具有有限的二阶矩,因此必须具有非零标准偏差,相关性才能成为有效的概念。
相关性是两个向量之间夹角的余弦值。说 Y 的标准差为零与说向量 Y-mean(Y) 为零(或者更严格地说,它在适当的向量空间中表示零)是一样的。所以问题变成了“关于零向量和向量 X-mean(X) 之间的角度(余弦)可以说什么?”。更一般地,在任何具有内积的向量空间中,零向量与其他向量之间的角度是什么意思?在我看来,只有一个答案,那就是这种情况下的“角度”概念是没有意义的,所以这种情况下的相关性概念是没有意义的。
免责声明,我意识到已经有一个公认的高质量答案,所以这应该是一个回应,但我没有经验点来允许它。@Dilip 提到您可以将相关性定义为 0 进行约定,但这似乎是有问题的,因为它与真正为零的相关性(具有非零 SD)有非常不同的解释。最初的问题是“如果一个变量的 SD 为零”。如果我们停下来想想“变量”的定义,那么我们就会得到一条更直接的答案。SD 为 0 的变量根本不是变量,而是常数。所以在那种情况下,你没有两个变量,所以在概念上定义相关性根本没有意义。