Kullback-Leibler 散度的缺点

机器算法验证 估计 kullback-leibler
2022-03-28 13:20:23

我正在研究一个校准问题,该问题涉及使用 Kullback-Leibler 散度作为一些经验分布之间的误差p和理论分布q. 在模型中,q分布是正态的,有一些固定的参数。我有两个问题:

  1. Kullback-Leibler 散度是被认为是错误的最佳 f 散度吗?
  2. Kullback-Leibler 散度的使用会带来任何问题吗?
1个回答

我想通过深度学习的视角,主要在 NLP 中为这个问题添加第一个答案,这将是不令人满意的:

第一件事,

Kullback-Leibler 散度的缺点

让我们看看定义(就您的问题而言):

KL(q||p)=q(s)logq(s)p(s)
什么时候p(s)>0q(s)0,KL 散度缩小到 0,这意味着 MLE 为场景分配了极低的成本,其中模型生成了一些不在数据分布上的样本。

考虑到这一点,手头的语料库包括当时世界上存在的全部样本q(s)0表示s在语料库中很少出现(大数定律),那么它的概率可能恰好很大(由于样本看起来相似但实际上不同或相反)。在这种情况下,由于缺乏对此类类别的训练,因此其在分布中的概率很高,因此在我们测试或验证时可能会生成这种不在数据分布上的稀有样本。

对于您的子问题:

Kullback-Leibler 散度是被认为是错误的最佳 f 散度吗?

您可以参考这个答案,其中指出“交叉熵是分类的首选,而均方误差是回归的最佳选择之一”。请注意,交叉熵训练与使用相对熵训练相同。详情请参阅

Kullback-Leibler 散度的使用会带来任何问题吗?

如果我正确理解您的问题,我想它可能会被 SVM 的损失函数所证伪。请参考这个问题这个答案Kullback-Leibler 散度并不能解决估计中的所有问题。