我正在研究一个校准问题,该问题涉及使用 Kullback-Leibler 散度作为一些经验分布之间的误差和理论分布. 在模型中,分布是正态的,有一些固定的参数。我有两个问题:
- Kullback-Leibler 散度是被认为是错误的最佳 f 散度吗?
- Kullback-Leibler 散度的使用会带来任何问题吗?
我正在研究一个校准问题,该问题涉及使用 Kullback-Leibler 散度作为一些经验分布之间的误差和理论分布. 在模型中,分布是正态的,有一些固定的参数。我有两个问题:
我想通过深度学习的视角,主要在 NLP 中为这个问题添加第一个答案,这将是不令人满意的:
第一件事,
Kullback-Leibler 散度的缺点
让我们看看定义(就您的问题而言):
考虑到这一点,手头的语料库包括当时世界上存在的全部样本表示在语料库中很少出现(大数定律),那么它的概率可能恰好很大(由于样本看起来相似但实际上不同或相反)。在这种情况下,由于缺乏对此类类别的训练,因此其在分布中的概率很高,因此在我们测试或验证时可能会生成这种不在数据分布上的稀有样本。
对于您的子问题:
Kullback-Leibler 散度是被认为是错误的最佳 f 散度吗?
您可以参考这个答案,其中指出“交叉熵是分类的首选,而均方误差是回归的最佳选择之一”。请注意,交叉熵训练与使用相对熵训练相同。详情请参阅此。
Kullback-Leibler 散度的使用会带来任何问题吗?
如果我正确理解您的问题,我想它可能会被 SVM 的损失函数所证伪。请参考这个问题和这个答案。Kullback-Leibler 散度并不能解决估计中的所有问题。