我注意到在 KL-Divergence 公式中使用了函数:
其中是一个点并且是真实的离散概率分布,是近似分布。谁能帮助解释为什么在这里使用
为什么不是简单的 有什么特别的目的吗?
我注意到在 KL-Divergence 公式中使用了函数:
为什么不是简单的 有什么特别的目的吗?
这个有点直观,希望能给点思路。
KL散度有几个数学含义。虽然它用于比较分布,但它来自信息论领域,它衡量在使用与真实分布不同的分布对源进行编码时丢失了多少“信息”。在信息论中,它也可以定义为熵之间的差——Q 和 P 的联合以及熵。
所以要讨论KL散度,我们需要了解熵的含义。熵是源中“信息”的度量,通常描述您对随机变量的结果有多“惊讶”。例如,如果你有一个均匀分布,你总是会感到“惊讶”,因为它可以接受的变量范围很广。它具有高熵。但是,如果 RV 是的硬币,那么您可能不会感到惊讶,因为它会成功 90% 的时间,所以它的熵很低。
熵定义为 ,它是源信息的期望值。为什么是日志?一个原因是的对数属性,表示由独立源组成的源的信息()将有他们的信息的总和。这只能通过使用对数来实现。