在这几周里,我一直在研究David Blei 及其同事 (2003)的经典潜在狄利克雷分配 (LDA) 算法,以及Tom Griffiths 引入的基于吉布斯采样的 LDA 变体。
这两种方法的主要区别是什么?
在这几周里,我一直在研究David Blei 及其同事 (2003)的经典潜在狄利克雷分配 (LDA) 算法,以及Tom Griffiths 引入的基于吉布斯采样的 LDA 变体。
这两种方法的主要区别是什么?
LDA 是用于文档生成过程的概率图形模型,如 Blei 等所述。al in JMLR 2003(有关生成过程的更多直觉,请参见http://videolectures.net/mlss09uk_blei_tm/)。现在这里的主要和明显的想法是,如果我们知道参数,我们就可以生成文档,从某种意义上说,我们已经对文档进行了建模。但这里的问题是我们不知道参数。所以我们使用我们的贝叶斯规则来反转生成过程。现在我们想要对给定数据的参数的不确定性进行建模,从某种意义上说,我们有我们的模型。那就是我们需要根据数据推断未知数。
在这两种情况下,模型都是相同的。但是我们推断的方式是不同的。Blei 等人使用的方法称为变分推理,而 Griffiths 使用的方法是基于采样的推理。两者都是近似推理方法,一种是 MCMC 类(Griffiths),另一种是变分类(Blei)。
在变分推理中,假设我们有一个无法推断的复杂多峰分布。我们想要的是用更简单的分布(在文献中称为 Q 见(3))来近似复杂的多峰分布。我们通过选择一个更简单的分布族来做到这一点,或者通过在 Blei 2003 的 LDA 中明确选择一个更简单的参数形式的族,或者只是决定 Bishop 在 (5) 中的分解形式作为正态分布示例(这里没有明确选择参数形式,这就是为什么它也被称为自由形式优化)。与吉布斯抽样的另一个重要区别是,更简单的分布(1)锁定了我们无法处理的复杂分布的模式(2)之一,但在吉布斯抽样中,我们访问了所有模式。
关于变分推理,更容易查看吉布斯采样。在吉布斯抽样中,我们对我们感兴趣的统计数据进行积分(概率也可以表示为积分)。现在我们使用蒙特卡洛近似来对我们使用分布中的样本形成的积分进行近似。同样,这里也很难从复杂分布中采样(如果适用),我们转向熟悉的分布,我们可以从中采样。这个基本描述有很多技巧和改进。
更多详情见 (3) (4)
(2)(来自用作成本的反向KL散度的迫零性质。理解迫零是微妙而好的。假设您要将非归一化单峰分布锁定到复杂多峰分布的模式之一上。现在我们需要一些想象。在强制零中发生的情况是,在复杂分布为零的情况下,更简单的多峰分布被迫为零,并且由于更简单的分布大多被选择为单峰,因此它别无选择,只能滑入其中一种模式(零focing effect). 如果你考虑非标准化分布,因为我们对参数感兴趣,单峰滑入多峰模式之一似乎很酷)。
(1)(在平均场近似的情况下是单峰的)
(3) Machine Learning a Probabilistic Perspective: Kevin Murphy Chapter 21 Variational Inference Chapter 22 更多变分推理 Chapter 23 Monte Carlo Inference Chapter 24 Markov Chain Monte Carlo Inference
(4) 图形模型、指数族和变分推理:Martin Wainwright 和 Michael Jordan
(5) 模式识别与机器学习:Bishop