最大熵:最大似然或合法贝叶斯程序的另一个名称?

机器算法验证 贝叶斯 最大似然 最大熵
2022-04-13 04:42:53

在最近的一些作品中(例如thisthis),MaxEnt 明确地绑定到最大似然(ergo Classical Inference)。

在其他一些较早的作品(如Jaynes 文章)中,MaxEnt 和贝叶斯方法不可避免地交织在一起。

我在这里想念什么?长期以来的敌人最大似然推理贝叶斯推理是否因为它们与 MaxEnt 等价而最终属于同一类等价?!?

1个回答

我相信Ariel Caticha对最大熵的解释及其与贝叶斯推理的关系给出了一些有趣的见解。

正如他自己所说,一本好的教学评论是他的(未完成的)书,但也可以查看 arXiV 中的论文。

我将在这里参考一些主要想法,希望它有助于回答这个问题(但不确定,如果版主认为它没有达到我可以删除的地步)


Cox、Jaynes 和许多其他人已经证明,概率是处理不完全信息情况的基本理论。如果一个人假设所提出的需求,则别无选择,只能使用(条件)概率。

但即使是 Jaynes 也曾经说过,正如您自己所提到的,通过贝叶斯规则更新概率或使用 MaxEnt分配概率是完全不同的事情。

Ariel 在其他几个人的工作(尤其是 Skilling、Shore & Johnson;我可能想念其他人)的基础上所做的,是为了证明:

  1. 最大熵是一种在发现新信息/数据时更新概率分布的工具,这些信息/数据限制了我们对我们一直在做的推理的了解;

  2. 最大熵以及概率也来自一组需求,因此如果一个人同意一开始的强加,则不能使用另一种工具来更新概率。

由此我们可以得出两个推论,他也证明了这一点:

  1. Jaynes 提到的分配概率的过程仅来自于统一先验的选择;

  2. 在新信息以数据形式出现的特定情况下,最大熵与贝叶斯规则(因此可以说是贝叶斯推理)相同

我猜这涵盖了 MaxEnt贝叶斯链接


最大似然,我不能说太多,但我相信你在这里有一点,它们通过贝叶斯规则以某种方式连接:

p(x|data)p(data|x)p(x)

如果一个人进行 MAP(最大后验,通常被认为是贝叶斯方法)估计并采用统一的先验,实际上人们正在做的是最大化似然但我真的没有经验可以说更多。p(x)p(data|x)