为什么 MAP 会收敛到 MLE?

机器算法验证 自习 贝叶斯 最大似然 收敛
2022-03-06 02:15:46

在 Kevin Murphy 的“机器学习:概率视角”第 3.2 章中,作者通过一个名为“数字游戏”的示例演示了贝叶斯概念学习:N样品来自{1,...,100},我们要选择一个假设h这最好地描述了生成样本的规则。例如“偶数”或“素数”。

最大后验和最大似然估计定义为:

h^MAP=argmaxh p(D|h)p(h)=argmaxh[logp(D|h)+logp(h)],

h^MLE=argmaxh p(D|h)=argmaxhlogp(D|h),

其中表示各种假设的先验概率,后验概率定义为:p(h)

p(D|h)=[1|h|]N,

当且仅当,即假设的替换均匀抽样产生集合的可能性有多大。直观地说,这意味着“最小”假设的后验率最高。例如,假设“2 的幂”比“偶数”更能DhhD{2,4,8,16,64}

这一切都很清楚。但是,我对以下句子感到困惑(尽管直觉上它很有意义):

由于似然项以指数方式依赖于,并且先验保持不变,因此随着我们获得越来越多的数据,MAP 估计会向最大似然估计收敛。N

确实,似然性以指数方式取决于,但是,幂数在区间中,并且作为,所以可能性实际上应该消失。N(0,1)NxN0

为什么在这种情况下 MAP 会收敛到 MLE?

1个回答

这里有两个问题,首先,为什么 MAP 通常(但不总是)收敛到 MLE 和“消失的可能性”问题。

对于第一个问题,我们将自己称为伯恩斯坦 - 冯米塞斯定理。它的本质是,随着样本量的增长,包含在先验和数据中的相关信息向有利于数据的方向移动,因此后验变得更加集中在 MLE 的仅数据估计周围,并且峰值实际上收敛到 MLE(通常需要满足某些假设的警告。)请参阅Wikipedia 页面以获取简要概述。

对于第二个问题,这是因为您没有标准化后验密度。根据贝叶斯法则:

P(h|D)=P(D|h)p(h)p(D)

并且,尽管 as正如您所观察到的,但也是如此。为了更具体一点,如果我们假设两个假设,我们通过以下方式找到后验:P(D|h)0nP(D)h1h2

P(h1|D)=P(D|h1)p(h1)P(D|h1)p(h1)+P(D|h2)p(h2)

分子和分母的项都有次幂,因此都为,但应该清楚的是,所需的规范化解决了否则会导致的问题。N0N