机器算法验证 - 互信息与标准化互信息 - 吾爱随笔录

互信息与标准化互信息

机器算法验证相关性互信息

2022-03-16 06:01:43

我想知道为什么有些论文使用归一化互信息而不是标准互信息来测量特征之间的相关性？这两种措施有什么区别？

2个回答

互信息 I(X,Y) 从 $0$ （没有互信息 - 变量 X 和 Y 是独立的）到 $+\infty$ . I(X,Y) 越高，X 和 Y 之间共享的信息就越多。但是，互信息的高值可能不直观且难以解释，因为它的值范围是无限的 $I(X,Y)\in [0...\infty)$ .
标准化互信息度量试图将可能的值带入有界范围 $I(X,Y)\in [0...m]$ . 具体来说，情况 $m=1$ 由于易于与常用的相关系数进行比较，因此很有用。

关于互信息和皮尔逊相关系数之间关系的很好的讨论可以在Lange 和 Grubmuller [1]的“ Generalized Correlation for Biomolecular Dynamics ”论文的材料和方法部分中找到。他们还引入了将 I(X,Y) 的值映射到 [0,1] 区间的广义相关系数，这可以看作是标准化互信息的另一种方法。

[1] OF Lange, H. Grubmüller, 蛋白质 2006, 62, 1053–1061。

与相关性不同，互信息并不总是小于 1。即，它是两个变量之间共享的信息位数，因此取决于每个变量的总信息内容。

归一化互信息的各种度量试图通过限制它来使其更像相关性（即 1 是好的，0 是坏的）。

其它你可能感兴趣的问题

上一篇使用贝叶斯神经网络有什么好处下一篇正态分布的 X 和 Y 是否更有可能导致正态分布的残差？