从 MC 样本中提取最大 A 后验 (MAP) 估计

机器算法验证 r 贝叶斯 马尔可夫链蒙特卡罗
2022-03-26 06:46:20

我在一些学术论文中注意到在贝叶斯设置中使用 MAP 估计器。样本是通过一些 MC 方法生成的,但从未详细说明这些样本的 MAP 计算。

有没有从连续样本中提取 MAP 估计值的标准方法?我觉得我错过了一些东西——因为谷歌搜索也无济于事。

1个回答

[以下内容是从我博客上的早期帖子中复制的。]

由于许多原因,我从未发现 MAP 估计器非常吸引人,其中一个原因确实是 MAP 估计器不能正确地表示为最小化问题的解决方案。我还发现估计器的逐点性质是一个很大的缺点:估计器仅与后验密度的局部属性相关联,而不与后验分布的全局属性相关联。在考虑两个不同参数的 MAP 估计时,这一点尤其引人注目。由于参数化变化中的雅可比行列式,估计值通常非常不同。例如,通常的正态平均值的 MAPμ在一个平坦的先前是x,例如 x=2,但如果使用 logit 参数化代替

μ=logη/(1η)
地图在η可以完全不同于1/(1+expx),例如导致μ=3什么时候x=2… 另一个不好的特征是边际 MAP 和联合 MAP 估计之间的差异。这并不是说 MAP 在任何意义上都不是最优的,因为我怀疑它可以作为贝叶斯估计的限制(在一系列损失函数下)被接受。

以下是普通示例的详细信息。我在之前使用的是公寓μ什么时候xN(μ,1). MAP 估计量μ那么是μ^=x. 如果我考虑变量的变化μ=logit(η), 上的后验分布η

π(η|x)=exp[(logit(η)x)2/2]/2πη(1η)
和地图η然后以数值方式获得。例如,R 代码

f=function(x,mea) dnorm(log(x/(1-x)),mean=mea)/(x*(1-x))
g=function(x){ a=optimise(f,int=c(0,1),maximum=TRUE,mea=x)$max;log(a/(1-a))}
plot(seq(0,4,.01),apply(as.matrix(seq(0,4,.01)),1,g),type="l")
abline(a=0,b=1,col="tomato2",lwd=2)

显示了 MAP 估计器 \hat\mu 和 MAP 估计器的逆变换之间的分歧η^变换的……第二个估计量是渐近的(在x) 相当于x+1.

在贝叶斯选择中我非常喜欢的一个例子是例子 4.1.2,观察时xCauchy(θ,1)具有双指数先验θexp{|θ|}/2. MAP 然后总是θ^=0

Pierre Druihlet 和 Jean-Michel Marin 在BA 论文中也研究了 MAP 估计器对主导度量的依赖性,他们提出了一个依赖于 Jeffreys 的先验作为参考度量的解决方案。


Burger 和 Lucka的一篇有趣的论文比较了 MAP 和后验均值,尽管我不同意他们的担忧,即我们应该在这两个估计量之间进行选择(仅或完全),因为重要的是后验分布及其用途. 因此,我不同意存在任何“关于点估计选择的辩论”。如果贝叶斯推理简化为产生点估计,这是一种正则化技术,贝叶斯解释既是偶然的,也是多余的。

也许论文中最有趣的结果是 MAP 表示为适当的贝叶斯估计量!我有相反的印象,主要是因为民间传说(甚至是贝叶斯核心)认为它对应于 0-1 损失函数不适用于连续参数空间,还因为它似乎与 Druihlet 的结果和Marin (BA, 2007),他指出 MAP 最终取决于主导措施的选择。(尽管 Lebesgue 度量被隐式选择为默认值。)这篇arXived 论文的作者从基于先验的距离开始;称为布雷格曼距离。取决于先验,这可能是二次距离或熵距离。定义一个混合了这个 Bregman 距离和二次距离的损失函数

||K(u^u)||2+2Dπ(u^,u)
生成 MAP 作为贝叶斯估计量。那么主导措施去哪儿了?事实上,无处可去:损失函数和生成的估计量显然都取决于主导度量的选择……(损失取决于先验,但这本身并不是缺点!)