贝叶斯模型中的潜在变量、过参数化和 MCMC 收敛

机器算法验证 贝叶斯 多层次分析 马尔可夫链蒙特卡罗 潜变量 收敛
2022-03-26 01:39:09

有时我在贝叶斯层次模型中有大量潜在变量,但我只对估计这些潜在变量的投影变换感兴趣(例如,我会将二项式参数参数化为一组可能的逆对数 -不可识别的协变量,即使我感兴趣的结果是二项式参数估计)。

即使潜在变量尚未收敛,投影变换通常也会很快收敛(基于 Gelman/Rubin 等收敛诊断或通过观察后验样本)。

直觉上这是有道理的,该模型可能是一个过度参数化,其中潜在参数不可识别 - 派生量被限制在转换变量参数空间的一个狭窄的高似然区域中,该区域映射到一个更大的平面潜在变量参数空间的似然(但有界)区域。

那么直觉是否正确,我不应该担心过度参数化的潜在变量在我获取后验样本时无法识别并且没有完全收敛?是否有一些很好的参考资料以这种方式讨论了未识别的潜在变量的使用?我听说过一些关于过度参数化以加速 mcmc 收敛的讨论,但我并不完全清楚如何考虑这一点,因为贝叶斯方法中对过度参数化和不可识别性的方法和态度似乎与在其他建模领域。

1个回答

那么直觉是否正确,我不应该担心过度参数化的潜在变量在我获取后验样本时无法识别并且没有完全收敛?

我认为你的直觉是正确的:你不应该担心过度参数化的潜在变量无法识别并且没有完全收敛。事实上,潜在变量可能无法收敛。我的理解是,在这种情况下,完整的状态空间链是空循环的,即使根据您的说法,存在一个较小维度的转换状态空间,其中链是完全循环的(因此具有平稳分布)。为了它的价值,我在我的应用研究中特意创建并使用了这样的 MCMC 链。

有时,具有这些特征的随机过程用于对时间序列数据进行建模(关键词:协整)。快速浏览一下这个图可能会产生一些直觉:

上图显示了两个价格时间序列,尽管在图的时间尺度上看不到通货膨胀,但由于通货膨胀,人们可能会认为它们是非平稳的。虽然每个单独的时间序列都是非平稳的,但在全状态空间内可以存在一个更小的维度流形(在这种情况下,“传播”,即时间序列的差异),使得通过投影原始生成的随机过程歧管上的过程是静止的。

是否有一些很好的参考资料以这种方式讨论了未识别的潜在变量的使用?

我不知道有任何参考文献以这种确切的方式讨论使用未识别的潜在变量,但这里有一份技术报告和Andrew Gelman 就该主题发表的论文,这是另一位最近的手稿作者我认为可能比前两个参考文献更接近您正在做的事情。