是否可以在离散分布和连续分布之间应用 KL 散度?

机器算法验证 分布 数理统计 kullback-leibler
2022-01-28 17:14:08

我不是数学家。我已经在互联网上搜索了有关 KL Divergence 的信息。我学到的是 KL 散度衡量了当我们根据输入分布近似模型分布时丢失的信息。我已经在任何两个连续或离散分布之间看到了这些。我们可以在连续和离散之间进行吗?反之亦然?

3个回答

是的,连续和离散随机变量之间的 KL 散度是明确定义的。如果PQ是在某些空间上的分布X, 那么两者PQ有密度f,g关于μ=P+Q

DKL(P,Q)=Xflogfgdμ.

例如,如果X=[0,1],P是勒贝格的测度并且Q=δ0是一个点质量0, 然后f(x)=11x=0,g(x)=1x=0

DKL(P,Q)=.

否:KL 散度仅在公共空间上的分布上定义。它询问一个点的概率密度x在两种不同的分布下,p(x)q(x). 如果p是一个分布在R3q分布在Z, 然后q(x)积分没有意义pR3p(z)积分没有意义zZ. 事实上,我们甚至不能对不同维空间上的两个连续分布(或离散的,或任何潜在概率空间不匹配的情况)进行此操作。

如果您考虑到特定情况,则可能会提出一些相似的分布之间的差异度量。例如,将连续分布编码为离散分布(显然会丢失信息)可能是有意义的,例如通过四舍五入到离散情况下的最近点。

一般不会。KL散度为

DKL(P || Q)=Xlog(dPdQ)dP

前提是P是绝对连续的Q和两者PQσ-有限的(即在条件下dPdQ是明确定义的)。

对于某些通常空间上的度量之间的“连续到离散”KL 散度,您会遇到 Lebesgue 度量相对于计数度量是绝对连续的情况,但计数度量不是σ-有限。