了解马尔可夫链蒙特卡罗采样的典型集

机器算法验证 模拟 马尔可夫链蒙特卡罗 蒙特卡洛 大都会黑斯廷斯 汉密尔顿-蒙特卡罗
2022-03-20 15:47:20

我今天开始阅读“汉密尔顿蒙特卡洛的概念介绍”,我一直无法理解贝当古对“典型集合”的解释。

如果q1,q2,,qn例如,从针对密度的 Metropolis-Hastings 算法生成π(q),我们可以取样本平均值以近似期望:

1ni=1nf(qi)f(q)π(q)dq.

我经常被告知,因为我们不能无限地运行采样器,所以最好在高密度区域获取样本π(q). 另一方面,贝当古说我应该专注于高质量区域 π(q)dq,并忽略可变性f. 这对我来说很有意义,因为上面的积分有点像if(qi)π(qi)dqi,而这笔款项的主要“贡献者”是qi有大的π(qi)dqi. 他们真的是qi有大的f(qi)π(qi)dqi, 但我们忽略f目前。

对我来说没有意义的是为什么dq在整个样本空间中不均匀Q. 我的直觉源于我们制作的这些二维黎曼积分dq非常小,无论在哪里,它们都是平等的q是。当每个qi是二维的,我们有dq=d(2πr)=2πrdr. 但是为什么我们要以中心为中心的 2 球体(圆)的体积变化0? 是我们网站上的一个问题,询问有关如何重现其中一个情节的建议。但是,我对这些公式的来源并不感到困惑,而是对它们为什么来自它们所在的地方感到困惑。

1个回答

dq 在整个空间中是统一的,这就是问题所在!不幸的是,当我们考虑高维空间时,对制服的直觉开始让我们失望,我们最终遇到了这样的概念困难。

是的,任何给定点周围的邻域体积保持不变,因为我们增加了空间的维度。但是当我们这样做时,我们也向空间中添加了更多的点,因此也添加了更多的点和相应的邻域。并不是我们选择的点周围的体积在任何绝对意义上都在缩小,而是体积对于空间其余部分的体积在​​缩小。

如果我们考虑任何一点周围的径向壳,我们会看到体积呈指数快速增长(指数为N1, 或者21=1在你的2维示例)随着我们进一步远离该点。无论我们取哪一点,远离一点的成交量增长都是一样的!

只有当我们考虑概率分布的特定密度表示时,这种行为的对称性才会被打破。密度的模式确定了空间中密度最大的特殊点。然后,为了了解典型集合的行为方式,我们必须考虑音量在这一特殊点周围的行为方式。

我们并不总是采取r=0——只是碰巧r=0是我们通常用来演示该现象的独立同分布单位高斯的模式。