通常,自相关是判断 MCMC 轨迹收敛性的一种诊断工具。需要低自相关,因为这意味着参数空间得到了很好的探索。
我对此有一个真正的斗争。假设我们有很多数据,并且后验的最高密度区间很窄。因此,大部分密度将落在小范围的参数上。如果我们从 MCMC 链推导出它,这意味着链的步骤参数不会有太大差异。据我了解,这也意味着自相关性很高。
我在这里有什么误解?
通常,自相关是判断 MCMC 轨迹收敛性的一种诊断工具。需要低自相关,因为这意味着参数空间得到了很好的探索。
我对此有一个真正的斗争。假设我们有很多数据,并且后验的最高密度区间很窄。因此,大部分密度将落在小范围的参数上。如果我们从 MCMC 链推导出它,这意味着链的步骤参数不会有太大差异。据我了解,这也意味着自相关性很高。
我在这里有什么误解?
这里发生了两件事,它们都导致想要低自相关,但角度略有不同。
首先,如果您有某种采样器(即 Metropolis Hasting、Gibbs 采样器等),您希望样本中的自相关非常少。这可以通过考虑 MCMC 误差来很容易地解释:例如,对于后验均值,如果您有弱相关样本,则 MCMC 误差将低于如果您有强相关样本。这是简单的解释,但也值得考虑更多。一般来说,很容易看出产生弱相关样本的采样器优于产生强相关样本的采样器。
其次,我认为你得到的更多是使用经验自相关来确定要去除什么“老化”。这背后的原因是,我们通常没有很好的起点。我们经常从模式开始。在有限样本中包含这些起点可能会增加偏差,因为我们从那里开始过度表示这些起点并可能缓慢地向模式漂移。不同的采样器可能比其他采样器“漂移”得更快。一旦我们接近模式,我们应该在那个时候基本上围绕模式反弹。但这里有一个重要的注意事项:当我们远离众数时,许多采样器会强烈地“拉”回到众数,因为向众数移动可能会大大增加后验概率。然而,当我们接近模式时,我们的采样器应该随机跳跃,对模式的“拖拽”要少得多(因为样本更接近)。牵引力越强,自相关性越高。因此,如果我们观察到在我们的链的早期存在严重的自相关,然后在一段时间后趋于平稳,这表明在早期与该模式相距甚远。