根据上下文,KL 散度的解释略有不同。相关的Wikipedia 文章包含专门介绍这些解释的部分。独立于解释,KL 散度始终定义为两个分布(在本例中为概率质量函数)之间的交叉熵(在尝试理解 KL 散度之前您应该熟悉)的特定函数
D吉隆坡(磷∥ Q )= -∑x ∈ Xp ( x )对数q( x ) +∑x ∈ Xp ( x )对数p ( x )= H(磷, Q ) - H(磷)
在哪里H(磷,问)是分布的交叉熵磷和问和H(磷) = H(磷,磷).
KL 不是一个度量,因为它不服从三角不等式。换句话说,一般来说,D吉隆坡(磷∥ Q ) ≠D吉隆坡( Q ∥ P).
鉴于神经网络经过训练以输出均值(可以是标量或向量)和方差(可以是标量、向量或矩阵),为什么我们不使用像 MSE 这样的度量来比较均值和方差?当您使用 KL 散度时,您不想只比较数字(或矩阵),而是比较概率分布(更准确地说,是概率密度或质量函数),因此您不会只比较两个不同分布的均值和方差,但您实际上会比较分布。请参阅相关 Wikipedia 文章中的 KL 散度应用示例。