KL散度与熵的关系

机器算法验证 优化 可能性 kullback-leibler 变分贝叶斯
2022-04-15 02:53:09

在 Bishop 的Pattern Recognition and Machine Learning中,10.1.2 节有一个关于最小化关于的参数,其中是已知分布。具体来说,他们指出,最小化会导致 q 的广泛分布,的多个模式中平均,同时最小化导致的单一模式上直观地说,我看到多个模式的平均值导致DKL(p||q)DKL(q||p)qpDKL(p||q)qpDKL(q||p)qpq它比集中在单一模式上的熵更大。书中的下图总结了这一点:

在此处输入图像描述

然而,这与数学相矛盾,因为 在这里 给出因此,在数学上,最小化是通过鼓励更大的熵值来实现的,而最小化有效地忽略了熵的

(1)DKL(p||q)=H(p,q)H(p)
(2)DKL(q||p)=H(q,p)H(q)
DKL(q||p)qDKL(p||q)q

的熵不应该大于最小(每个 wrt 的参数)吗?qDKL(q||p)DKL(p||q)q

2个回答

我将使用我在Intuition on the Kullback-Leibler (KL) Divergence 上的答案重新表述。由于我是一名统计学家,我对可能性比对熵更满意,但我也认为这提供了更多的直觉。现在熵所以熵只是负预期对数似然。类似地,交叉熵是(负)预期的对数似然,但现在不是在“它自己的真理”下计算,而是在其他分布下,在其他一些真理下计算。我们可以用它来表示分歧为 H(X)=xp(x)logp(x)=Eplogp

(*)DKL(p||q)=EplogpEplogq
(**)DKL(q||p)=EqlogqEqlogp
使用上述链接帖子的解释,是在对数似然比的备选方案下测试与备选方案的期望。在您的设置中,是一个已知分布,我们假设它是多模态的。的情况下,是零分布,并且当期望在 p 下计算时,很难拒绝替代的散度很小。但这意味着DKL(p||q)H0:qpp(*)qqppp将有助于期望,因此更好的是在所有这些模式中都有一些质量。有它的任何地方都有一定概率的分布。qp

然后转到现在难以拒绝替代时,散度很小,并且期望在下计算。所以在这种情况下,如果省略了的一些模式,那没关系,因为那里的大似然比对期望没有贡献!所以书中的结论确实是正确的。(**)ppqqqp

另一个评论:在中,如果已知分布是经验数据分布,我们找到一个模型最接近它,我们得到有效的最大似然。(*)pq

首先,KL散度DKL(p||q)是相对、相对熵的同义词p关于q.

然后熵变成了随机变量的自信息。互信息是称为相对熵的更一般量的特例,相对熵是两个概率分布之间距离的度量。

来源:熵、相对熵和互信息

其次,熵与相对熵有关,相对熵p关于均匀分布。

直观地说,具有概率分布的随机变量 X 的熵p(x)与多少有关p(x)与支持度上的均匀分布不同X. 越多p(x)其熵越小,其发散越小,反之亦然。

H(X)=xXp(x)log1p(x)=log|X|xXp(x)logp(x)1|X|=log|X|D(p||uniform)

资料来源: COS597D:计算机科学中的信息论的第 1.2 节

然后你的问题(标题)可以改写为“相对熵之间的关系p关系到q和相对熵q相对于均匀分布”。不可能p偏离q涉及到如何q偏离均匀分布,因为pq可以是任何分布对。

熵不应该是q最小化时更大DKL(q||p)比最小化时DKL(p||q)(每个wrt参数q)?

不。

这两个相对熵只是没有相互关联。的相对熵q相对于均匀分布并不取决于您要最小化的相对熵(因为p可以变化)。