机器算法验证 - 是什么导致 MCMC 采样器中的自相关？ - 吾爱随笔录

机器算法验证相关性贝叶斯自相关马尔可夫链蒙特卡罗锯齿

2022-03-19 18:19:52

运行贝叶斯分析时，要检查的一件事是 MCMC 样本的自相关。但我不明白是什么导致了这种自相关。

[来自 MCMC] 的高自相关样本通常是由变量之间的强相关性引起的。

我想知道 MCMC 中高自相关样本的其他原因是什么。
在 JAGS 输出中观察到自相关时是否有要检查的事项列表？
我们如何在贝叶斯分析中管理自相关？我知道有些人说瘦，但其他人说这很糟糕。运行模型更长的时间是另一种解决方案，不幸的是时间成本很高，并且在某些情况下仍然会影响 MCMC 中样本的跟踪。为什么某些算法在探索和不相关方面更有效？我们应该改变链的初始值吗？

1个回答

在贝叶斯分析中使用马尔可夫链蒙特卡罗 (MCMC) 算法时，目标通常是从后验分布中进行采样。当其他独立抽样技术不可行时（如拒绝抽样），我们会求助于 MCMC。然而，MCMC 的问题是生成的样本是相关的。这是因为每个后续样本都是使用当前样本绘制的。

有两种主要的 MCMC 采样方法：Gibbs 采样和 Metropolis-Hastings (MH) 算法。

样本中的自相关受到很多因素的影响。例如，在使用 MH 算法时，在一定程度上可以通过调整提案分布的步长来减少或增加自相关。然而，在吉布斯抽样中，不可能进行这样的调整。自相关也受马尔可夫链起始值的影响。通常有一个（未知的）最佳起始值会导致相对较小的自相关。目标分布的多模态也会极大地影响样本的自相关。因此，目标分布的某些属性可以肯定地决定自相关。但大多数情况下，自相关是由使用的采样器决定的。一般来说，如果 MCMC 采样器在状态空间中跳跃更多，它可能会有更小的自相关。
我对 JAGS 不熟悉。
如果您已经决定了采样器，并且没有选择与其他采样器一起玩的选项，那么最好的选择是进行一些初步分析以找到好的起始值和步长。通常不建议进行细化，因为有人认为丢弃样本的效率低于使用相关样本的效率。一个通用的解决方案是长时间运行采样器，使您的有效样本量 (ESS) 很大。看看这里R的包装。如果您查看第 8 页上的小插图，作者建议计算其估计过程所需的最小有效样本。你可以为你的问题找到那个数字，然后让马尔可夫链运行，直到你有那么多有效样本。mcmcse

其它你可能感兴趣的问题