我知道 KL Divergence 不是对称的,它不能被严格地视为一个度量。如果是这样,为什么在 JS Divergence 满足指标所需的属性时使用它?
是否存在可以使用 KL 散度但不能使用 JS 散度的场景,反之亦然?
我知道 KL Divergence 不是对称的,它不能被严格地视为一个度量。如果是这样,为什么在 JS Divergence 满足指标所需的属性时使用它?
是否存在可以使用 KL 散度但不能使用 JS 散度的场景,反之亦然?
我在Quora上找到了一个非常成熟的答案,并把它放在这里供在这里寻找它的人使用:
Kullback-Leibler 散度有一些很好的性质,其中之一是那种讨厌的地区具有非零质量和有零质量。这可能看起来像一个错误,但在某些情况下它实际上是一个功能。
如果您试图找到复杂(难以处理)分布的近似值通过(易处理的)近似分布 您想绝对确定任何不太可能从中提取的𝑥也不太可能从. KL 有这个属性很容易证明:有一个在被积函数中。当 𝑞(𝑥) 很小但不是,没关系。但当很小,如果也不小。所以,如果你选择尽量减少, 这是非常不可能的将在以下区域分配大量质量接近于零。
Jensen-Shannon 散度没有这个性质。它的表现都很好和很小。这意味着它不会对分配造成太大的惩罚您可以从中采样不可能的值.
我最近偶然发现了一个类似的问题。
要回答为什么非对称散度比对称散度更有利,请考虑一个场景,您希望量化重要性采样(IS) 中使用的提议分布的质量。如果你不熟悉 IS,这里的关键思想是设计一个有效的 IS 方案,你的提案分布应该比目标分布有更重的尾巴。
表示两个分布和. 假设你的目标与 IS,使用作为提案分布。为了量化提案分布的质量,您可以计算 Jensen-Shannon (JS) 散度, 和 Kullback-Leibler (KS) 散度从并获得一些值。这两个值都应该让您了解您的提案分布有多好是。这里还没有什么可看的。但是,考虑颠倒设置,即目标与 IS 使用作为提案分布。在这里,由于其对称性,JS 散度将是相同的,而 KL 的从会低很多。简而言之,我们期望使用达到目标没问题,并且达到目标不行。KL散度符合我们的预期;. JS 分歧没有。
这种不对称性质与我们的目标一致,因为它可以正确地、松散地说,解释两个分布之间差异的方向。
另一个需要考虑的因素是,有时计算 JS 散度比 KS 散度在计算上更具挑战性。
KL散度具有清晰的信息理论解释,众所周知;但是我第一次听说KL散度的对称化称为JS散度。JS-divergence 不常用的原因可能是它不太为人所知并且不提供必备属性。