相关性作为一种可能性度量

机器算法验证 可能性 相关性 解释 可能性
2022-04-11 15:04:15

各种形式的相关性,例如, r=Σixiyiσxσy 或者 r=Σi(xix¯)(yiy¯)σxσy 是许多应用程序中流行的相似性度量。

是否有对此的概率解释,使得r或者r2是来自相同或相似分布的 x 和 y 的近似可能性吗?即,如果我们有某种形式的Pθ1(x)Pθ2(y), 然后rP(θ1=θ2|x,y)?

我猜想相关性可能是某种可能性度量的近似值中的第一项。但我无法得出这样的模型。假设xy来自一个正常的,并且θ作为平均值,它并没有真正派生出那种表达方式。

2个回答

我认为这里有一个轻微的概念问题:可能性是数量P(x,y|θ)作为一个函数θ. 但是相关系数是数据的函数xy. 因此,根据定义,相关系数是“统计量”(数据的函数)而不是可能性(参数的函数)。

换句话说,有θ观察到的相关性的概率很高,其他值θ观察到的相关性较低。如果您考虑到相关的高斯,那么观察到的相关性可能不太可能,因为协方差矩阵比数据预期的依赖程度更高或依赖程度更低(所以可能性和r2甚至不会是单调的,除非r2=1)。当然,预期相关系数与双变量高斯中的非对角项单调相关,但这并不能使r2本身就是可能性的代表。

听起来您对测试是否可能已经观察到特定的相关系数感兴趣,因为xy是独立生成的。为此,您可能希望对观察到的值执行显着性检验r或者r2,它将告诉您在给定特定数据模型的情况下观察到该值的可能性有多大。维基百科关于相关系数推断的文章讨论了一些常见的测试。

我认为 PCA 所做的事情接近于高斯噪声模型,它接近于多维空间中的相关性度量。