机器算法验证 - 为什么 MAP 会收敛到 MLE？ - 吾爱随笔录

在 Kevin Murphy 的“机器学习：概率视角”第 3.2 章中，作者通过一个名为“数字游戏”的示例演示了贝叶斯概念学习： $N$ 样品来自 $\{1,...,100\}$ ，我们要选择一个假设 $h$ 这最好地描述了生成样本的规则。例如“偶数”或“素数”。

最大后验和最大似然估计定义为：

{\hat{h}}_{M A P} = {\arg max}_{h} p (D | h) p (h) = {\arg max}_{h} [\log p (D | h) + \log p (h)],

$\hat h_\mathrm{MAP}={\arg\max}_h\ p(\mathcal{D}|h)p(h)={\arg\max}_h[\log p(\mathcal{D}|h)+\log p(h)],$

{\hat{h}}_{M L E} = {\arg max}_{h} p (D | h) = {\arg max}_{h} \log p (D | h),

$\hat h_\mathrm{MLE}={\arg\max}_h\ p(\mathcal{D}|h)={\arg\max}_h\log p(\mathcal{D}|h),$

其中表示各种假设的先验概率，后验概率定义为： $p(h)$

p (D | h) = [\frac{1}{| h |}]^{N},

$p(\mathcal{D}|h)=\Bigg[\frac{1}{|h|}\Bigg]^N,$

当且仅当，即假设的替换均匀抽样产生集合的可能性有多大。直观地说，这意味着“最小”假设的后验率最高。例如，假设“2 的幂”比“偶数”更能 $\mathcal{D}\subset h$ $h$ $\mathcal{D}$ $\{2,4,8,16,64\}$

这一切都很清楚。但是，我对以下句子感到困惑（尽管直觉上它很有意义）：

由于似然项以指数方式依赖于，并且先验保持不变，因此随着我们获得越来越多的数据，MAP 估计会向最大似然估计收敛。 $N$

确实，似然性以指数方式取决于，但是，幂数在区间中，并且作为，，所以可能性实际上应该消失。 $N$ $(0,1)$ $N \to \infty$ $x^N \to 0$

为什么在这种情况下 MAP 会收敛到 MLE？