机器算法验证 - 相关性作为一种可能性度量 - 吾爱随笔录

相关性作为一种可能性度量

机器算法验证可能性相关性解释可能性

2022-04-11 15:04:15

各种形式的相关性，例如， $r = \frac{\Sigma_i x_i * y_i}{\sigma_x \sigma_y}$ 或者 $r = \frac{\Sigma_i (x_i-\bar{x}) * (y_i-\bar{y})}{\sigma_x \sigma_y}$ 是许多应用程序中流行的相似性度量。

是否有对此的概率解释，使得 $r$ 或者 $r^2$ 是来自相同或相似分布的 x 和 y 的近似可能性吗？即，如果我们有某种形式的 $P_{\theta_1}(x)$ 和 $P_{\theta_2}(y)$ ，然后 $r$ 与 $P(\theta_1=\theta_2 | x,y)$ ?

我猜想相关性可能是某种可能性度量的近似值中的第一项。但我无法得出这样的模型。假设 $x$ 和 $y$ 来自一个正常的，并且 $\theta$ 作为平均值，它并没有真正派生出那种表达方式。

2个回答

我认为这里有一个轻微的概念问题：可能性是数量 $P(x,y|\theta)$ 作为一个函数 $\theta$ . 但是相关系数是数据的函数 $x$ 和 $y$ . 因此，根据定义，相关系数是“统计量”（数据的函数）而不是可能性（参数的函数）。

换句话说，有 $\theta$ 观察到的相关性的概率很高，其他值 $\theta$ 观察到的相关性较低。如果您考虑到相关的高斯，那么观察到的相关性可能不太可能，因为协方差矩阵比数据预期的依赖程度更高或依赖程度更低。（所以可能性和 $r^2$ 甚至不会是单调的，除非 $r^2=1$ ）。当然，预期相关系数与双变量高斯中的非对角项单调相关，但这并不能使 $r^2$ 本身就是可能性的代表。

听起来您对测试是否可能已经观察到特定的相关系数感兴趣，因为 $x$ 和 $y$ 是独立生成的。为此，您可能希望对观察到的值执行显着性检验 $r$ 或者 $r^2$ ，它将告诉您在给定特定数据模型的情况下观察到该值的可能性有多大。维基百科关于相关系数推断的文章讨论了一些常见的测试。

我认为 PCA 所做的事情接近于高斯噪声模型，它接近于多维空间中的相关性度量。

其它你可能感兴趣的问题

上一篇如何显示线性回归的去趋势数据？下一篇最强大的正态性 GoF 测试