用于最大似然估计 (MLE) 的马尔可夫链蒙特卡罗 (MCMC)

机器算法验证 最大似然 马尔可夫链蒙特卡罗 梯度下降 极值
2022-03-11 10:23:53

我正在阅读 Geyer 1991 年的会议论文,链接如下。在其中,他似乎逃避了一种可以使用 MCMC 进行 MLE 参数估计的方法

这让我很兴奋,因为我已经编写了 BFGS 算法、GA 和各种这些可怕的手摇幸运倾角方法,这些方法可以找到从 MLE 中提取参数估计所需的全局最小值。

它让我兴奋的原因是,如果我们能够保证 MCMC 收敛到一个固定点(例如,一个充分的标准将满足详细的平衡),那么我们可以在不最小化 MLE 的情况下获得参数。

因此,结论是,这提供了一种通用方法来获得上面和本文中施加的全局最小值、模约束。MCMC 有许多算法,例如 HMC,它们可以很好地映射到高维 MCMC 问题,我认为它们会优于传统的梯度下降方法。

问题

  1. 这篇论文为使用 MCMC 从 MLE 获取参数估计提供了理论基础,我是否正确?

  2. 如本文所述,是否可以在某些情况下使用 MCMC 算法从 MLE 中提取参数,从而绕过对遗传算法和 BFGS 等方法的需求。

盖尔,CJ (1991)。马尔可夫链蒙特卡罗最大似然计算科学与统计:PROC。第 23 次症状。接口,156-163。

抽象的

马尔可夫链蒙特卡罗(例如,Metropolis 算法和 Gibbs 采样器)是一种通用工具,用于模拟在许多类型的统计推断中有用的复杂随机过程。回顾了马尔可夫链蒙特卡罗的基础知识,包括算法选择和方差估计,并介绍了一些新方法。解释了使用马尔可夫链蒙特卡罗进行最大似然估计,并将其性能与最大伪似然估计进行了比较。

注意:第 1-6 节很无聊,如果你走到这一步,你可能已经知道它们了。在第 7 节中,他谈到了有趣但他称之为“蒙特卡洛最大似然”的东西

更多资源

control+f 表示“Geyer”

2个回答

如果我理解正确,您对多模态目标函数的 MCMC 感到兴奋。您的理由是 MCMC 方法搜索全局参数空间,而不是仅仅拍摄最接近的模式并停止。

虽然理论上是正确的,但在实践中,MCMC 的行为通常与爬山方法有些相似:一旦找到本地模式,他们通常会停留在该模式附近。与爬山方法不同,它们离开模式的概率为正,因此理论上如果让运行足够长的时间,它将探索全局空间。然而,对于大多数采样器来说,这个概率非常小,以至于不合理地运行足够长的链来保证采样器将正确地探索全局空间。

当然,有一些采样器试图通过尝试偶尔采取异常步骤来解决这个问题(即查看它是否可以脱离本地模式)。但我不认为这些采样器在优化方面完全没有竞争力,使用探索多模态表面的标准优化方法(即粒子群等)。

MCMC 通常不会收敛到一个固定点。收敛是马尔可夫链的平稳分布。抽签是不同的,但松散地说,抽签的分布是固定的

MCMC 方法通常会遇到与其他优化方法类似的问题。例如,很容易设计很少脱离局部最小值的链。有大量的技巧可以解决各种模型的此类问题。

也就是说,在回答您的第二个问题时,这是一种快速而肮脏的方式 MCMC 可用于参数估计:

  1. 运行链,生成参数样本。
  2. 获取参数的每个样本下的可能性。
  3. 将 MCMC 样本的可能性与您最喜欢的 MLE 进行比较。
  4. 如果任何 MCMC 样本做得更好,那它就不是真正的全局 MLE。