MLE 与 MAP 估计,何时使用哪个?

机器算法验证 机器学习 贝叶斯 估计 最大似然 推理
2022-01-20 00:48:54

MLE = 最大似然估计

MAP = 最大后验

MLE 是直观/幼稚的,因为它仅从给定参数(即似然函数)的观察概率开始,并试图找到最符合观察的参数。但它没有考虑先验知识。

MAP 似乎更合理,因为它确实通过贝叶斯规则考虑了先验知识。

是一个相关的问题,但答案并不彻底。

所以,我认为MAP要好得多。是对的吗?我什么时候应该使用哪个?

4个回答

如果先验概率作为问题设置的一部分给出,则使用该信息(即使用 MAP)。如果没有给出或假设这样的先验信息,则 MAP 是不可能的,而 MLE 是一种合理的方法。

贝叶斯主义者会同意您的观点,而常客则不会。这是一个观点、观点和哲学问题。我认为试图争论一种方法总是比另一种更好,这对统计界造成了很大的伤害。只要贝叶斯没有太强的先验,许多问题都会有相似的贝叶斯和常客解决方案。

假设您有准确的先验信息,如果问题在估计上具有零一损失函数,则 MAP 会更好。如果损失不是零一(在许多实际问题中不是),那么 MLE 可能会实现较低的预期损失。在这些情况下,最好不要将自己局限于 MAP 和 MLE 作为仅有的两个选项,因为它们都是次优的。

@bean 的简短回答很好地解释了这一点。但是,我想指出由 Resnik 和 Hardisty 为外行人提供的 Gibbs Sampling论文的第 1.1 节,它使问题更深入。我从这篇论文中写了几行,做了非常小的修改(为了完整起见,这个答案重复了一些 OP 知道的事情)

MLE

形式上,MLE 产生最有可能生成观察数据的选择(模型参数)。

地图

估计的 MAP 是根据观察到的数据最有可能的选择。与 MLE 相比,MAP 估计应用贝叶斯规则,因此我们的估计可以考虑到关于我们期望参数以先验概率分布形式出现的先验知识。

抓住

根据各自对“最佳”的定义,MLE 和 MAP 估计都给了我们最好的估计。但请注意,使用单一估计——无论是 MLE 还是 MAP——都会丢弃信息。原则上,参数可以具有任何值(来自域);如果我们考虑整个分布而不是参数的单个估计值,我们可能不会得到更好的估计吗?如果我们这样做,我们将利用我们可以从观察到的数据 X 中提取的所有参数信息。

所以有了这个捕获,我们可能不想使用它们。此外,正如 bean 和 Tim 已经提到的,如果您必须使用其中之一,如果您事先获得,请使用 MAP。如果您没有先验,则 MAP 会简化为 MLE。共轭先验将有助于分析解决问题,否则使用 Gibbs Sampling。