机器算法验证 - 从 MC 样本中提取最大 A 后验 (MAP) 估计 - 吾爱随笔录

从 MC 样本中提取最大 A 后验 (MAP) 估计

机器算法验证 r 贝叶斯马尔可夫链蒙特卡罗

2022-03-26 06:46:20

我在一些学术论文中注意到在贝叶斯设置中使用 MAP 估计器。样本是通过一些 MC 方法生成的，但从未详细说明这些样本的 MAP 计算。

有没有从连续样本中提取 MAP 估计值的标准方法？我觉得我错过了一些东西——因为谷歌搜索也无济于事。

1个回答

由于许多原因，我从未发现 MAP 估计器非常吸引人，其中一个原因确实是 MAP 估计器不能正确地表示为最小化问题的解决方案。我还发现估计器的逐点性质是一个很大的缺点：估计器仅与后验密度的局部属性相关联，而不与后验分布的全局属性相关联。在考虑两个不同参数的 MAP 估计时，这一点尤其引人注目。由于参数化变化中的雅可比行列式，估计值通常非常不同。例如，通常的正态平均值的 MAP $\mu$ 在一个平坦的先前是 $x$ ，例如 x=2，但如果使用 logit 参数化代替

μ = \log η / (1 - η)

$\mu = \log \eta/(1-\eta)$ 地图在

η

$\eta$ 可以完全不同于

1 / (1 + \exp - x)

$1/(1+\exp-x)$ ，例如导致

μ = 3

$\mu=3$ 什么时候

x = 2

$x=2$ … 另一个不好的特征是边际 MAP 和联合 MAP 估计之间的差异。这并不是说 MAP 在任何意义上都不是最优的，因为我怀疑它可以作为贝叶斯估计的限制（在一系列损失函数下）被接受。

以下是普通示例的详细信息。我在之前使用的是公寓 $\mu$ 什么时候 $x\sim\mathcal{N}(\mu,1)$ . MAP 估计量 $\mu$ 那么是 $\hat\mu=x$ . 如果我考虑变量的变化 $\mu=\text{logit}(\eta)$ , 上的后验分布 $\eta$ 是

π (η | x) = \exp [- (logit (η) - x)^{2} / 2] / \sqrt{2 π} η (1 - η)

$\pi(\eta|x) = \exp[ -(\text{logit}(\eta)-x)^2/2 ] / \sqrt{2\pi} \eta (1-\eta)$ 和地图

η

$\eta$ 然后以数值方式获得。例如，R 代码

f=function(x,mea) dnorm(log(x/(1-x)),mean=mea)/(x*(1-x))
g=function(x){ a=optimise(f,int=c(0,1),maximum=TRUE,mea=x)$max;log(a/(1-a))}
plot(seq(0,4,.01),apply(as.matrix(seq(0,4,.01)),1,g),type="l")
abline(a=0,b=1,col="tomato2",lwd=2)

显示了 MAP 估计器 \hat\mu 和 MAP 估计器的逆变换之间的分歧 $\hat\eta$ 变换的……第二个估计量是渐近的（在 $x$ ）相当于 $x+1$ .

在贝叶斯选择中我非常喜欢的一个例子是例子 4.1.2，观察时 $x\sim\text{Cauchy}(\theta,1)$ 具有双指数先验 $\theta\sim\exp\{-|\theta|\}/2$ . MAP 然后总是 $\hat\theta=0$ ！

Pierre Druihlet 和 Jean-Michel Marin 在BA 论文中也研究了 MAP 估计器对主导度量的依赖性，他们提出了一个依赖于 Jeffreys 的先验作为参考度量的解决方案。

Burger 和 Lucka的一篇有趣的论文比较了 MAP 和后验均值，尽管我不同意他们的担忧，即我们应该在这两个估计量之间进行选择（仅或完全），因为重要的是后验分布及其用途. 因此，我不同意存在任何“关于点估计选择的辩论”。如果贝叶斯推理简化为产生点估计，这是一种正则化技术，贝叶斯解释既是偶然的，也是多余的。

也许论文中最有趣的结果是 MAP 表示为适当的贝叶斯估计量！我有相反的印象，主要是因为民间传说（甚至是贝叶斯核心）认为它对应于 0-1 损失函数不适用于连续参数空间，还因为它似乎与 Druihlet 的结果和Marin (BA, 2007)，他指出 MAP 最终取决于主导措施的选择。（尽管 Lebesgue 度量被隐式选择为默认值。）这篇arXived 论文的作者从基于先验的距离开始；称为布雷格曼距离。取决于先验，这可能是二次距离或熵距离。定义一个混合了这个 Bregman 距离和二次距离的损失函数

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ 生成 MAP 作为贝叶斯估计量。那么主导措施去哪儿了？事实上，无处可去：损失函数和生成的估计量显然都取决于主导度量的选择……（损失取决于先验，但这本身并不是缺点！）

其它你可能感兴趣的问题

上一篇随着样本量的增加，为什么结果的标准差会变小？有人可以提供一个外行的例子并解释为什么下一篇相关F( V r [ X _] )f(Var[X])至V r [f _( X) ]Var[f(X)]用于正、增加和凹F( X)f(X)