是什么导致 MCMC 采样器中的自相关?

机器算法验证 相关性 贝叶斯 自相关 马尔可夫链蒙特卡罗 锯齿
2022-03-19 18:19:52

运行贝叶斯分析时,要检查的一件事是 MCMC 样本的自相关。但我不明白是什么导致了这种自相关。

在这里,他们说

[来自 MCMC] 的高自相关样本通常是由变量之间的强相关性引起的。

  1. 我想知道 MCMC 中高自相关样本的其他原因是什么。

  2. 在 JAGS 输出中观察到自相关时是否有要检查的事项列表?

  3. 我们如何在贝叶斯分析中管理自相关?我知道有些人说瘦,但其他人说这很糟糕运行模型更长的时间是另一种解决方案,不幸的是时间成本很高,并且在某些情况下仍然会影响 MCMC 中样本的跟踪。为什么某些算法在探索和不相关方面更有效?我们应该改变链的初始值吗?

1个回答

在贝叶斯分析中使用马尔可夫链蒙特卡罗 (MCMC) 算法时,目标通常是从后验分布中进行采样。当其他独立抽样技术不可行时(如拒绝抽样),我们会求助于 MCMC。然而,MCMC 的问题是生成的样本是相关的。这是因为每个后续样本都是使用当前样本绘制的。

有两种主要的 MCMC 采样方法:Gibbs 采样和 Metropolis-Hastings (MH) 算法。

  1. 样本中的自相关受到很多因素的影响。例如,在使用 MH 算法时,在一定程度上可以通过调整提案分布的步长来减少或增加自相关。然而,在吉布斯抽样中,不可能进行这样的调整。自相关也受马尔可夫链起始值的影响。通常有一个(未知的)最佳起始值会导致相对较小的自相关。目标分布的多模态也会极大地影响样本的自相关。因此,目标分布的某些属性可以肯定地决定自相关。但大多数情况下,自相关是由使用的采样器决定的。一般来说,如果 MCMC 采样器在状态空间中跳跃更多,它可能会有更小的自相关。
  2. 我对 JAGS 不熟悉。
  3. 如果您已经决定了采样器,并且没有选择与其他采样器一起玩的选项,那么最好的选择是进行一些初步分析以找到好的起始值和步长。通常不建议进行细化,因为有人认为丢弃样本的效率低于使用相关样本的效率。一个通用的解决方案是长时间运行采样器,使您的有效样本量 (ESS) 很大。看看这里R的包装如果您查看第 8 页上的小插图,作者建议计算其估计过程所需的最小有效样本。你可以为你的问题找到那个数字,然后让马尔可夫链运行,直到你有那么多有效样本。mcmcse