为什么 KL-Divergence 在其公式中使用“ln”?

机器算法验证 kullback-leibler
2022-03-06 15:51:51

我注意到在 KL-Divergence 公式中使用了函数:ln

DKL(P||Q)=iP(i)lnP(i)Q(i),
其中是一个点并且是真实的离散概率分布,是近似分布。谁能帮助解释为什么在这里使用iP(i)Q(i)ln

为什么不是简单的 有什么特别的目的吗?

DKL(P||Q)=iP(i)P(i)Q(i)?

2个回答

这个有点直观,希望能给点思路。

KL散度有几个数学含义。虽然它用于比较分布,但它来自信息论领域,它衡量在使用与真实分布不同的分布对源进行编码时丢失了多少“信息”。在信息论中,它也可以定义为熵之间的差——Q 和 P 的联合以及QPP

所以要讨论KL散度,我们需要了解熵的含义。熵是源中“信息”的度量,通常描述您对随机变量的结果有多“惊讶”。例如,如果你有一个均匀分布,你总是会感到“惊讶”,因为它可以接受的变量范围很广。它具有高熵。但是,如果 RV 是的硬币,那么您可能不会感到惊讶,因为它会成功 90% 的时间,所以它的熵很低。p=0.9

熵定义为 ,它是源信息的期望值。为什么是日志?一个原因是的对数属性,表示由独立源组成的源的信息()将有他们的信息的总和。这只能通过使用对数来实现。H(X)=xP(x)logP(x)=E[logP(X)]I(X)log(xy)=log(x)+log(y)p(x)=p1(x)p2(x)

简而言之,因为香农熵使用对数,见:

KL 散度通常定义为交叉熵减去熵。