我在一些学术论文中注意到在贝叶斯设置中使用 MAP 估计器。样本是通过一些 MC 方法生成的,但从未详细说明这些样本的 MAP 计算。
有没有从连续样本中提取 MAP 估计值的标准方法?我觉得我错过了一些东西——因为谷歌搜索也无济于事。
我在一些学术论文中注意到在贝叶斯设置中使用 MAP 估计器。样本是通过一些 MC 方法生成的,但从未详细说明这些样本的 MAP 计算。
有没有从连续样本中提取 MAP 估计值的标准方法?我觉得我错过了一些东西——因为谷歌搜索也无济于事。
[以下内容是从我博客上的早期帖子中复制的。]
由于许多原因,我从未发现 MAP 估计器非常吸引人,其中一个原因确实是 MAP 估计器不能正确地表示为最小化问题的解决方案。我还发现估计器的逐点性质是一个很大的缺点:估计器仅与后验密度的局部属性相关联,而不与后验分布的全局属性相关联。在考虑两个不同参数的 MAP 估计时,这一点尤其引人注目。由于参数化变化中的雅可比行列式,估计值通常非常不同。例如,通常的正态平均值的 MAP在一个平坦的先前是,例如 x=2,但如果使用 logit 参数化代替
以下是普通示例的详细信息。我在之前使用的是公寓什么时候. MAP 估计量那么是. 如果我考虑变量的变化, 上的后验分布是
f=function(x,mea) dnorm(log(x/(1-x)),mean=mea)/(x*(1-x))
g=function(x){ a=optimise(f,int=c(0,1),maximum=TRUE,mea=x)$max;log(a/(1-a))}
plot(seq(0,4,.01),apply(as.matrix(seq(0,4,.01)),1,g),type="l")
abline(a=0,b=1,col="tomato2",lwd=2)
显示了 MAP 估计器 \hat\mu 和 MAP 估计器的逆变换之间的分歧变换的……第二个估计量是渐近的(在) 相当于.
在贝叶斯选择中我非常喜欢的一个例子是例子 4.1.2,观察时具有双指数先验. MAP 然后总是!
Pierre Druihlet 和 Jean-Michel Marin 在BA 论文中也研究了 MAP 估计器对主导度量的依赖性,他们提出了一个依赖于 Jeffreys 的先验作为参考度量的解决方案。
Burger 和 Lucka的一篇有趣的论文比较了 MAP 和后验均值,尽管我不同意他们的担忧,即我们应该在这两个估计量之间进行选择(仅或完全),因为重要的是后验分布及其用途. 因此,我不同意存在任何“关于点估计选择的辩论”。如果贝叶斯推理简化为产生点估计,这是一种正则化技术,贝叶斯解释既是偶然的,也是多余的。
也许论文中最有趣的结果是 MAP 表示为适当的贝叶斯估计量!我有相反的印象,主要是因为民间传说(甚至是贝叶斯核心)认为它对应于 0-1 损失函数不适用于连续参数空间,还因为它似乎与 Druihlet 的结果和Marin (BA, 2007),他指出 MAP 最终取决于主导措施的选择。(尽管 Lebesgue 度量被隐式选择为默认值。)这篇arXived 论文的作者从基于先验的距离开始;称为布雷格曼距离。取决于先验,这可能是二次距离或熵距离。定义一个混合了这个 Bregman 距离和二次距离的损失函数