在 Kevin Murphy 的“机器学习:概率视角”第 3.2 章中,作者通过一个名为“数字游戏”的示例演示了贝叶斯概念学习:样品来自,我们要选择一个假设这最好地描述了生成样本的规则。例如“偶数”或“素数”。
最大后验和最大似然估计定义为:
其中表示各种假设的先验概率,后验概率定义为:
当且仅当,即假设的替换均匀抽样产生集合的可能性有多大。直观地说,这意味着“最小”假设的后验率最高。例如,假设“2 的幂”比“偶数”更能
这一切都很清楚。但是,我对以下句子感到困惑(尽管直觉上它很有意义):
由于似然项以指数方式依赖于,并且先验保持不变,因此随着我们获得越来越多的数据,MAP 估计会向最大似然估计收敛。
确实,似然性以指数方式取决于,但是,幂数在区间中,并且作为,,所以可能性实际上应该消失。
为什么在这种情况下 MAP 会收敛到 MLE?