在实践中使用 KL Divergence

机器算法验证 机器学习 分类 kullback-leibler
2022-03-28 08:12:20

它不是对称的,因此不能真正用作距离度量。

我想给定两个已知分布 p(x) 和 q(x),如果发现另一个分布 z(x) 但知道它来自 p 或 q,您可以比较每个分布的差异来解决问题。

但是,我来自 ML 背景,我想了解它如何在该上下文中使用(实际上从理论上讲不是) - 它可以用于/它是否常用于创建分类器或提取特征?

2个回答

Kullback-Leibler 散度广泛用于变分推理,其中构造了一个优化问题,旨在最小化难以处理的目标分布和从一类易于处理的分布中P寻找的元素之间的 KL 散度。Q

然后必须选择 KL 散度的“方向”,以使期望相对于Q使任务可行。

许多近似算法(也可用于将概率模型拟合到数据)可以以这种方式解释。其中包括平均场、(循环)信念传播(将 HMM 的前向和维特比泛化)、期望传播、连接图/树、树重新加权的信念传播等等。

参考

  • Wainwright,MJ 和 Jordan,MI 图形模型、指数族和变分推理,在机器学习中注册的基础和趋势文本,Now Publishers Inc.,2008 年,卷。1(1-2),第 1-305 页
  • 耶迪迪亚,JS;Freeman, WT & Weiss, Y.构建自由能近似和广义信念传播算法, 信息论, IEEE Transactions on, IEEE, 2005 , 51, 2282-2312

KL 广泛用于机器学习。我知道的两种主要方式

  • 压缩:压缩文档实际上就是为它找到一个好的生成模型。鉴于真实模型在使用近似 ) ,因此您将不得不使用多余的位来编码值序列。您支付的额外费用为 KL(p,q)p(x)q(x)X

  • 贝叶斯近似推理:贝叶斯方法非常适合 ML,但获得后验的计算成本也非常高。两种解决方案:要么使用采样方法(MCMC、gibbs 等),要么使用旨在找到后验的简单(例如高斯)近似的近似推理方法。大多数近似推理方法以某种方式引用 KL:所谓的“变分”(这个名字很烂)方法最小化 KL(q,p) 等。近似推理存在于许多机器学习研究中,所以 KL 也是