我很难建立一些关于联合熵的直觉。 = 联合分布中的不确定性; =中的不确定性; =的不确定性。
如果 H(X) 很高,则分布更加不确定,如果您知道这种分布的结果,那么您将获得更多信息!所以 H(X) 也量化了信息。
现在我们可以显示
但是如果你知道你可以得到和所以在某种意义上比和 ) 有更多的信息,所以应该与 p(x,y) 相关的不确定性是否大于单个不确定性的总和?
我很难建立一些关于联合熵的直觉。 = 联合分布中的不确定性; =中的不确定性; =的不确定性。
如果 H(X) 很高,则分布更加不确定,如果您知道这种分布的结果,那么您将获得更多信息!所以 H(X) 也量化了信息。
现在我们可以显示
但是如果你知道你可以得到和所以在某种意义上比和 ) 有更多的信息,所以应该与 p(x,y) 相关的不确定性是否大于单个不确定性的总和?
作为一般规则,附加信息永远不会增加熵,其正式表述为:
和是独立的,则等式成立,这意味着。
这个结果可以用来证明联合熵。为了证明这一点,考虑一个简单的情况。根据链式法则,我们可以将连接熵写成如下
考虑到不等式,永远不会增加变量的熵,因此。使用归纳法可以将此结果推广到涉及两个以上变量的情况。
希望它有助于减少关于联合熵的歧义(或您的熵)!
香农熵还有另一种观点。想象一下,您想通过问题猜测变量的具体值是什么。为简单起见,假设该值只能取 8 个不同的值,并且所有值的概率均相同。
最有效的方法是执行二分查找。首先你问是大于还是小于 4。然后将它与 2 或 6 进行比较,依此类推。总共你不需要超过三个问题(这是这个具体分布的位数)。
我们可以对两个变量的情况进行类比。如果它们不是独立的,那么知道其中一个的值有助于您对下一个问题做出更好的猜测(平均而言)(这反映在omidi指出的结果中)。因此,熵较低,除非它们完全独立,您需要独立猜测它们的值。说熵较低意味着(对于这个具体的例子)你平均需要做更少的问题(即你经常会做出很好的猜测)。
看来您正在考虑“如果已知更多信息,则在未知时更多熵”。这不是一个正确的直觉,因为如果分布未知,我们甚至不知道它的熵。如果分布是已知的,那么 熵量化了描述随机变量实现的不确定性所需的信息量,这仍然是未知的(我们只知道围绕这种不确定性的结构,通过知道分布)。熵不量化分布中“存在”的信息。相反:分布中“包含”的信息越多,描述不确定性“需要”的信息就越少,因此越少。熵是。考虑均匀分布:它包含的信息非常少,因为变量的所有可能值都是等概率的:因此它在所有有界支持的分布中具有最大熵。
至于联合熵,你可以这样想:联合分布包含关于两个变量是否依赖的信息,加上足以推导出边际分布的信息。边际分布不包含有关两个随机变量是依赖还是独立的信息。所以联合分布有更多的信息,并且为我们提供了围绕所涉及的随机变量的更少的不确定性:
分发中包含的更多信息围绕变量的不确定性较小描述这种不确定性所需的信息更少更少的熵。