KL 散度:P||Q 与 Q||P

机器算法验证 分布 模型选择 信息论 kullback-leibler 费希尔信息
2022-04-21 00:22:42

假设,我们有几个数据生成措施P1,,PkQ,都定义在同一个概率空间上。接下来,假设我们有相同数量的独立采样数据P1,,Pk和一些数据来自Q我们的目标是找到哪个分布P1,,Pk是最接近的Q是KL-divergence的感觉。

KL-散度,DKL(Pi||Q)=p(x)log(p(x)q(x))dxDKL(Q||Pi), 不是对称的。

因此,如果我们比较Q对所有人Pi, 哪一个DKL(Pi||Q)或者DKL(Q||Pi), 为了i=1,,k作为标准考虑是否正确?

据我所知,在 AIK 标准中,一个适用于DKL(Q||Pi)案子。

更新:

我的困惑部分来自以下事实,即 KL 是一个预度量,它在概率分布空间上生成拓扑。让我们考虑措施的顺序U1,,Un. 那么如果

limiDKL(Ui||Q)=0
然后
UndQ.

1个回答

DKL(P||Q)=p(x)log(p(x)q(x))dx=EPlog(p(X)q(X))
我们看到这是对数似然比的期望,当P是事实,请参阅关于 Kullback-Leibler (KL) 分歧的直觉

如果在假设检验语言中,P是空的,而Q是替代方案:所以DKL(P||Q)是发散的Q从(空)真理,而DKL(Q||P)当备择假设为真时是发散的。然后你的问题:

哪个分布P1,,Pk是最接近的Q是KL-divergence的感觉吗?

如果这意味着您想要一个难以区分的模型Q何时/如果Q是真的,你需要DKL(Q||P). 请记住,第一个论点是事实(这是一种说法,我们计算散度计算期望值,假设分布生成X是第一个参数中给出的分布。也就是说,关于正在生成的东西的真相X.)