为什么贝叶斯后验集中在 KL 散度的最小值附近?

机器算法验证 贝叶斯 最大似然 kullback-leibler
2022-03-12 02:26:06

考虑贝叶斯后验θX. 渐近地,它的最大值出现在 MLE 估计θ^,这只是最大化可能性argminθfθ(X).

所有这些概念——贝叶斯先验,最大化可能性——听起来非常有原则,一点也不武断。看不到日志。

然而 MLE 最小化了真实分布之间的 KL 散度f~fθ(x),即它最小化

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

哇——这些日志是从哪里来的?为什么特别是KL散度?

例如,为什么最小化不同的分歧不对应于贝叶斯后验和最大化可能性的超级原则和动机概念?

在这种情况下,KL 散度和/或日志似乎有一些特别之处。当然,我们可以举起双手说数学就是这样。但我怀疑可能有一些更深层次的直觉或联系有待发现。

1个回答

在这样的计算中使用对数来自信息论在 KL 散度的特定情况下,该度量可以解释为两个分布的相对信息:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

在哪里H(f~)_f~H(f~,fθ)是交叉熵f~fθ. 熵可以看作是密度产生的平均速率的度量(认为交叉熵有点复杂)。最小化固定值的 KL 散度f~(如您提到的问题)等效于最小化交叉熵,因此可以对这种优化进行信息论解释。

我不可能在一篇简短的文章中很好地说明信息论和信息度量的属性。但是,我建议您查看该领域,因为它与统计数据有密切的联系。许多涉及密度对数的积分和总和的统计量度是量度理论中使用的标准信息量度的简单组合,在这种情况下,可以根据各种密度等信息的基础水平对它们进行解释。