互信息与标准化互信息

机器算法验证 相关性 互信息
2022-03-16 06:01:43

我想知道为什么有些论文使用归一化互信息而不是标准互信息来测量特征之间的相关性?这两种措施有什么区别?

2个回答
  • 互信息 I(X,Y) 从0(没有互信息 - 变量 X 和 Y 是独立的)到+. I(X,Y) 越高,X 和 Y 之间共享的信息就越多。但是,互信息的高值可能不直观且难以解释,因为它的值范围是无限的I(X,Y)[0...).
  • 标准化互信息度量试图将可能的值带入有界范围I(X,Y)[0...m]. 具体来说,情况m=1由于易于与常用的相关系数进行比较,因此很有用。

关于互信息和皮尔逊相关系数之间关系的很好的讨论可以在Lange 和 Grubmuller [1]的“ Generalized Correlation for Biomolecular Dynamics ”论文的材料和方法部分中找到。他们还引入了将 I(X,Y) 的值映射到 [0,1] 区间的广义相关系数,这可以看作是标准化互信息的另一种方法。

[1] OF Lange, H. Grubmüller, 蛋白质 2006, 62, 1053–1061。

与相关性不同,互信息并不总是小于 1。即,它是两个变量之间共享的信息位数,因此取决于每个变量的总信息内容。

归一化互信息的各种度量试图通过限制它来使其更像相关性(即 1 是好的,0 是坏的)。