超越数值计算的互信息是什么意思?

信息处理 信息论
2022-01-12 15:08:33

除了计算互信息的原始方程之外,它在物理方面意味着什么?例如:从信息论中,我们知道熵是我们可以在具有特定概率分布的字母表上使用的最小无损压缩方案。

就互信息而言,这意味着什么?

背景:我正在尝试计算 uni-gram 单词的互信息,并确定它们来自两本书中的哪一本书。

基本的

I(book;word)

2个回答

另外两个直观的互信息:

  • 当两个随机变量独立时,联合分布和边际分布的乘积是相同的。之间的概率距离来评估两个随机变量之间的独立程度——当两个变量独立时,该距离为 0。变量之间的常见概率距离是 Kullback-Leibler 散度。如果您采用联合分布和两个随机变量的边际乘积之间的 Kullback-Leibler 散度,您最终会得到……互信息。p(x,y)p(x)p(y)p(x)×p(y)p(x,y)

  • 从压缩/编码的角度来看,假设您有一个对观察的序列。您想将它们压缩成一个文件。两种策略:将所有(x)存储在一个压缩文件中,然后将所有(y)独立存储在另一个压缩文件中;vs 压缩对。使用最佳编码器,第一种情况下的文件大小为,而在第二种情况下,文件大小为如果两个观察到的变量之间存在关系,则第二种方法更有效!每次观察我们节省了多少位?N(x,y)N×H(X)+N×H(Y)N×H(X,Y)N×H(X)+N×H(Y)N×H(X,Y)N=I(X,Y)因此,互信息告诉我们通过联合而不是独立地编码两个数据流,每次观察可以节省多少比特。

不过,我不确定您的示例...在两个随机变量(分布)之间计算互信息。我可以看到“书”如何代表书中单词的分布;但我不确定“单词”在这里是什么意思。互信息还需要计算“配对”观察。

根据定义,互信息涉及两个随机变量 (RV),它从信息内容的角度衡量两个 RV 之间的依赖性,即衡量一个 RV 包含的关于另一个 RV 的信息量。互信息是一个对称量,即I(X;Y)=I(Y;X).

在通信信道的情况下,信道的最大可实现容量是信道输入和输出之间的互信息的最大值C=maxp(x)I(X;Y).

在您的情况下,两个 RV XY将对应于书籍和单词。互信息将衡量(书、词)对之间共有的信息量。显然,您会将这个词与您拥有最大互信息的书相关联。这是最大互信息方法。