MCMC 的可逆性

机器算法验证 机器学习 马尔可夫链蒙特卡罗 吉布斯
2022-03-24 12:25:21

我正在阅读Geyer关于 MCMC的讲义。这些笔记的精简版构成了马尔可夫链蒙特卡罗手册的第 1 章(布鲁克斯等人,2011 年)。

Geyer 指出,有效转换运算符的组合仍然有效:

很明显,如果一个更新机制U1保留指定的分布,另一种更新机制也是如此U2, 那么也是U1其次是U2, 我们将表示U1U2.

后来他注意到U1U2通常是不可逆的,但可以通过回文更新轻松构建可逆复合更新,例如U1U2U1或者U1U2U2U1.

可逆性是证明给定更新使目标分布不变的充分条件,这就是为什么我们希望基本更新是可逆的。但是,一旦我们证明了这一点,我们就不需要复合更新是可逆的。(例如,典型的固定扫描吉布斯采样器是不可逆的。)

在保持复合更新可逆方面是否有任何理论或实践收益? 我的问题很笼统,不仅针对 Gibbs;尽管我怀疑在吉布斯抽样的情况下,可能对运算符排序的影响进行了最多的研究。

在实践中,我目前正在通过组合许多不同类型的基本运算符来构建 MCMC 更新(另请参阅此问题)。可以以回文的方式组合运算符——这有关系吗?

PS:我知道运算符的概率混合是有效且可逆的,但在这里我对组合感兴趣。

1个回答

我将您的问题解释得更笼统,因为“在不可逆马尔可夫链上使用可逆马尔可夫链有什么好处吗?”。以下是我能想到的两个原因:

  1. 标准误差:如果链是可逆的,则马尔可夫链 CLT 可以适用于几何遍历马尔可夫链,同时仅假设有限的二阶矩。如果链是不可逆的,那么你必须假设2+δ为了δ>0有限的时刻。因此,如果您正在估计后验均值,并且只有两个可用的有限矩,那么只有不可逆的马尔可夫链可能不允许分析标准误差。您可以在此处找到更多信息

  2. 光谱间隙:通常通过查看马尔可夫链的光谱间隙来分析 MCMC 采样器的收敛速度。对于可逆马尔可夫链,第二大特征值决定了混合时间,对此有许多已知的界限。也许在这里看到评论。因此,如果您的马尔可夫链是可逆的,则可能更容易研究其收敛速度。也有一些关于不可逆马尔可夫链的工作(见this),但文献并不丰富。这是Mathoverflow中对此的更多讨论。

总体而言,如果您不需要研究采样器的确切收敛速度,并且您的分布表现得足够好,以至于对于大多数感兴趣的函数来说它具有大于 2 个矩,那么就没有理由将自己限制在只是可逆马尔可夫链。这就是为什么经常使用固定扫描吉布斯采样器的部分原因。在实践中没有任何损失。