相互信息与相关性

机器算法验证 相关性 数理统计 互信息
2022-02-01 23:15:56

为什么以及何时我们应该在“Pearson”、“spearman”或“Kendall's tau”等统计相关测量上使用互信息?

4个回答

让我们考虑一个(线性)相关的基本概念,协方差(这是 Pearson 的相关系数“未标准化”)。对于具有概率质量函数 p(x)p(y) 和联合 pmf p(x,y) 的两个离散随机变量 XY,我们有

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

两者之间的互信息定义为

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

比较两者:每个都包含“两个 rv 与独立的距离”的逐点“度量”,它由联合 pmf 与边际 pmf 乘积的距离表示:$\operatorname{Cov} (X,Y)$ 将其作为水平差,而 $I(X,Y)$ 将其作为对数差。 Cov(X,Y) has it as difference of levels, while I(X,Y) has it as difference of logarithms.

这些措施有什么作用?在 $\operatorname{Cov}(X,Y)$ 中,它们创建两个随机变量乘积的加权和。在 $I(X,Y)$ 中,它们创建了它们的联合概率的加权和。Cov(X,Y) they create a weighted sum of the product of the two random variables. In I(X,Y) they create a weighted sum of their joint probabilities.

因此,在 $\operatorname{Cov}(X,Y)$ 中,我们查看非独立性对其产品的影响,而在 $I(X,Y)$ 中,我们查看非独立性对其联合概率分布的影响。 Cov(X,Y) we look at what non-independence does to their product, while in I(X,Y) we look at what non-independence does to their joint probability distribution.

反过来,$I(X,Y)$ 是距离独立距离的对数度量的平均值,而 $\operatorname{Cov}(X,Y)$ 是距离独立距离的水平度量的加权值,由两个 rv 的乘积加权。I(X,Y) is the average value of the logarithmic measure of distance from independence, while Cov(X,Y) is the weighted value of the levels-measure of distance from independence, weighted by the product of the two rv's.

所以这两者不是对立的——它们是互补的,描述了两个随机变量之间关联的不同方面。有人可以评论说,互信息“不关心”关联是否是线性的,而协方差可能为零并且变量可能仍然是随机相关的。另一方面,协方差可以直接从数据样本中计算出来,而不需要实际知道所涉及的概率分布(因为它是一个涉及分布矩的表达式),而互信息需要知道分布,如果与 Covariance 的估计相比,unknown 是一项更加微妙和不确定的工作。

这是一个例子。

在这两个图中,相关系数为零。但是即使相关性为零,我们也可以获得高共享互信息。

首先,我看到如果我有一个高或低的 X 值,那么我可能会得到一个高的 Y 值。但如果 X 的值适中,那么我有一个低的 Y 值。第一个图保存有关 X 和 Y 共享的互信息的信息。在第二个图中,X 没有告诉我有关 Y 的任何信息。

互信息与相关性

互信息是两个概率分布之间的距离。相关性是两个随机变量之间的线性距离。

您可以在为一组符号定义的任何两个概率之间具有互信息,而不能在无法自然映射到 R^N 空间的符号之间具有相关性。

另一方面,互信息不会对变量的某些属性做出假设……如果您使用的是平滑的变量,相关性可能会告诉您更多关于它们的信息;例如,如果他们的关系是单调的。

如果您有一些先验信息,那么您可以从一个切换到另一个;在医疗记录中,您可以将符号“具有基因型 A”和“不具有基因型 A”映射为 0 和 1 值,并查看这是否与一种或另一种疾病有某种形式的相关性。同样,您可以取一个连续变量(例如:薪水),将其转换为离散类别,并计算这些类别与另一组符号之间的互信息。

虽然它们都是特征之间关系的度量,但 MI 比相关系数 (CE) 更通用,因为 CE 只能考虑线性关系,但 MI 也可以处理非线性关系。