在这样的计算中使用对数来自信息论。在 KL 散度的特定情况下,该度量可以解释为两个分布的相对信息:
KL(f~∥fθ)=∫−∞∞f~(x)(logf~(x)−logfθ(x)) dx=(−∫−∞∞f~(x)logfθ(x) dxH(f~,fθ))−(−∫−∞∞f~(x)logf~(x) dxH(f~)),
在哪里H(f~)是熵_f~和H(f~,fθ)是交叉熵f~和fθ. 熵可以看作是密度产生的平均速率的度量(认为交叉熵有点复杂)。最小化固定值的 KL 散度f~(如您提到的问题)等效于最小化交叉熵,因此可以对这种优化进行信息论解释。
我不可能在一篇简短的文章中很好地说明信息论和信息度量的属性。但是,我建议您查看该领域,因为它与统计数据有密切的联系。许多涉及密度对数的积分和总和的统计量度是量度理论中使用的标准信息量度的简单组合,在这种情况下,可以根据各种密度等信息的基础水平对它们进行解释。