我对 KL 散度所看到的一般直觉是,它计算从分布 P 中使用 P 的最佳代码采样的预期长度采样使用Q最佳代码的差异。
这对于为什么它是两个分布之间的相似性度量的一般直觉是有道理的,但是两个分布之间有许多相似性度量。必须有一些基于它如何选择分配距离与其他指标的基本假设。
这似乎是理解何时使用 KL 散度的基础。是否有很好的直觉来理解 KL 散度与其他相似性指标的不同之处?
我对 KL 散度所看到的一般直觉是,它计算从分布 P 中使用 P 的最佳代码采样的预期长度采样使用Q最佳代码的差异。
这对于为什么它是两个分布之间的相似性度量的一般直觉是有道理的,但是两个分布之间有许多相似性度量。必须有一些基于它如何选择分配距离与其他指标的基本假设。
这似乎是理解何时使用 KL 散度的基础。是否有很好的直觉来理解 KL 散度与其他相似性指标的不同之处?
一个非常简短的答案;提出了太多相似性指标(或分歧),甚至无法尝试查看多个。我将尝试说一下为什么要使用特定的。
Kullback-Leibler 散度:见Intuition on the Kullback-Leibler (KL) Divergence,我不会在这里重写。简而言之,当对假设检验感兴趣时,KL 散度是自然的,因为它是对数似然比的替代假设下的预期值。其他一些分歧着眼于似然比的其他函数,但考虑到它在统计推断中的作用,log 是自然的。
推土机距离,请参阅Hausdorff 和推土机 (EMD) 距离之间的差异和维基百科。这里的想法与 KL 散度非常不同,我看不出与推理有明显的联系。维基百科文章给出了以下示例:
EMD 在计算机科学中的早期应用是比较两个可能因抖动、模糊或局部变形而不同的灰度图像。 [10] 在这种情况下,区域是图像的域,光(或墨水)的总量是要重新排列的“污垢”。
这似乎类似于时间序列中使用的动态时间扭曲。
巴塔查里亚距离,请参阅巴塔查里亚系数的直觉和巴塔查里亚距离?. 这也和推理有关,是似然比平方根的原假设下的期望。对我来说,不清楚为什么它很有趣,但它可以看作是马氏距离对非正态分布的推广。请注意,从稍加操作即可得到用于密度. 这可能会给人一些直觉。
在这里可以找到卡方距离有很多传统,并且对于离散数据来说似乎很自然。一个使用示例是对应分析。
可能许多分歧主要在技术上用于证明,然后直觉必须来自它们的使用。一篇有趣的论文。