哪些 MCMC 算法/技术用于离散参数?

机器算法验证 贝叶斯 马尔可夫链蒙特卡罗
2022-02-11 07:47:38

我对拟合连续参数特别是基于梯度的方法有相当多的了解,但对拟合离散参数知之甚少。

拟合离散参数的常用 MCMC 算法/技术有哪些?是否有既相当通用又相当强大的算法?有没有可以很好地处理维度灾难的算法?例如,我会说哈密顿量 MCMC 是通用的、强大的并且可以很好地扩展。

从任意离散分布采样似乎比从连续分布采样更困难,但我很好奇最先进的技术是什么。

编辑:JMS 要求我详细说明。

我没有考虑具体的应用,但这里有一些我想象的模型:

  • 几种连续回归模型之间的模型选择。您有一个离散的单个“模型”参数
  • 一个连续模型,其中每个观察值都有可能成为“异常值”,并且来自更分散的分布。我想这是一个混合模型。

我希望许多模型同时包含连续和离散参数。

1个回答

所以简单的答案是肯定的:Metropolis-Hastings 及其特例 Gibbs 采样 :) 通用且强大;它是否扩展取决于手头的问题。

我不确定为什么您认为对任意离散分布进行采样比对任意连续分布进行采样更困难。如果您可以计算离散分布并且样本空间不大,那么它会容易得多(除非连续分布是标准的)。计算每个类别的似然,然后归一化以获得概率施加任意顺序) .f(k)P(k~=k)=f(k)/f(k)k

你有没有想到一个特定的模型?有各种各样的 MCMC 方法来拟合混合模型,例如,潜在分量分配是离散参数。这些范围从非常简单(吉布斯)到非常复杂。

参数空间有多大?它是否可能是巨大的(例如在混合模型的情况下,它是 N 由混合成分的数量)?您可能只需要一个 Gibbs 采样器,因为共轭不再是问题(您可以直接获得归一化常数,以便计算完整的条件)。事实上,griddy Gibbs 曾经在这些情况下很受欢迎,其中连续先验被离散化以简化计算。

我认为对于具有离散参数空间的所有问题,与连续情况相比,没有一个特别的“最佳”。但是,如果您告诉我们更多有关您感兴趣的模型的信息,也许我们可以提出一些建议。

编辑:好的,我可以在 re: your examples 中提供更多信息。

正如您可能想象的那样,您的第一个示例具有相当长的历史。最近的评论在 [1] 中,另见 [2]。我将尝试在这里给出一些细节:一个相关的例子是随机搜索变量选择。最初的公式是使用绝对连续的先验,例如等先验相比,这实际上效果不佳,其中是一个点质量在 0。请注意,两者都适合您的原始公式;MCMC 方法通常会通过使用(离散)模型指标(例如来进行。这相当于一个模型索引;如果你有p(β)πN(β;0,τ)+(1π)N(β,0,1000τ)p(β)πδ0(β)+(1π)N(β,0,τ)δ0βZZ1,Zp那么显然您可以将可能的配置中的数字。2p1:2p

那么如何改进 MCMC 呢?在许多这些模型中,您可以通过组合从中采样,即使用 . 像这样的块更新可以极大地改善混合,因为之间的相关性现在与采样器无关p(Z,β|y)p(Z,β|y)=p(β|Y,Z)p(Z|Y)Zβ

SSVS 将整个模型空间嵌入到一个大模型中。通常这很容易实现,但效果不佳。可逆跳跃 MCMC 是一种不同的方法,它让参数空间的维数显式变化;参见 [3] 的评论和一些实用说明。我敢肯定,您可以在文献中找到有关在不同模型中实现的更详细说明。

通常一个完整的 MCMC 方法是不可行的。假设你有一个变量的线性回归,并且你正在使用像 SSVS 这样的方法。你不能指望你的采样器收敛;没有足够的时间或计算能力来访问所有这些模型配置,如果你的一些变量甚至是适度相关的,你会特别紧张。你应该特别怀疑人们试图以这种方式估计变量包含概率之类的东西。已经针对这种情况提出了与 MCMC 结合使用的各种随机搜索算法。一个例子是 BAS [4],另一个在 [5] 中(Sylvia Richardson 也有其他相关工作);我所知道的大多数其他人都是针对特定模型的。p=1000

一种越来越受欢迎的不同方法是使用模拟模型平均结果的绝对连续收缩先验。通常,这些被公式化为法线的比例混合。贝叶斯套索就是一个例子,它是正态伽马先验的一种特殊情况,也是正态指数伽马先验的一种极限情况。其他选择包括马蹄形和一般类别的正态分布,它们的方差具有倒置 beta 先验。有关这些的更多信息,我建议从 [6] 开始并回顾参考文献(太多了,我无法在此处复制 :))

如果有机会,我稍后会添加更多关于异常模型的信息;经典参考文献[7]。它们在精神上与收缩先验非常相似。通常使用 Gibbs 采样很容易做到。

也许不像您希望的那样实用;模型选择尤其是一个难题,模型越精细,它变得越差。尽可能阻止更新是我唯一的一般建议。从混合分布中抽样,您经常会遇到成员指标和组件参数高度相关的问题。我也没有涉及标签切换问题(或缺少标签切换);那里有相当多的文学作品,但离我的驾驶室有点远。

无论如何,我认为从这里的一些参考资料开始很有用,以了解其他人处理类似问题的不同方式。

[1] Merlise Clyde 和 EI George。模型不确定性统计科学 19 (2004): 81--94。 http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2]http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Green & Hastie Reversible jump MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf

[6] http://www.uv.es/bernardo/Polson.pdf

[7] 贝叶斯线性回归中的 Mike West 离群值模型和先验分布 (1984) JRSS-B