MaxEnt 和贝叶斯推理方法对应于将信息合并到建模过程中的不同方式。两者都可以放在公理基础上(John Skilling 的“Axioms of Maximum Entropy”和 Cox 的“Algebra of Probable Inference”)。
如果您的先验知识以假设空间上可测量的实值函数的形式出现,那么贝叶斯方法很容易应用,即所谓的“先验”。当信息作为假设空间的一组硬约束时,MaxEnt 很简单。在现实生活中,知识既不是“先验”形式,也不是“约束”形式,所以你的方法的成功取决于你以相应形式表示你的知识的能力。
在一个玩具问题上,当先验与假设的真实分布相匹配时,贝叶斯模型平均将为您提供最低的平均对数损失(在许多模型绘制中平均)。当满足其约束时, MaxEnt 方法将为您提供最低的最坏情况对数损失(最坏的情况是所有可能的先验)
ETJaynes,被认为是“MaxEnt”方法之父,也依赖于贝叶斯方法。在他的书的第 1412 页,他给出了一个例子,其中贝叶斯方法产生了一个很好的解决方案,然后是一个 MaxEnt 方法更自然的例子。
最大似然本质上将模型置于某个预先确定的模型空间内,并试图“尽可能地”拟合它,因为它对所有模型选择方法中的数据具有最高的敏感性,仅限于此类模型空间。MaxEnt 和 Bayesian 是框架,而 ML 是一种具体的模型拟合方法,对于某些特定的设计选择,ML 最终可以采用 Bayesian 或 MaxEnt 方法的方法。例如,具有等式约束的 MaxEnt 等价于某个指数族的最大似然拟合。类似地,贝叶斯推理的近似可以导致正则化的最大似然解。如果您选择先验以使您的结论对数据最大敏感,则贝叶斯推理的结果将对应于最大似然拟合。例如,p在伯努利试验中,这样的先验将是限制分布 Beta(0,0)
现实生活中的机器学习成功往往是各种哲学的混合体。例如,“随机场”源自MaxEnt 原则。该想法最流行的实现,即正则化 CRF,涉及在参数上添加“先验”。因此,该方法不是真正的 MaxEnt 也不是贝叶斯,而是受到这两种思想流派的影响。
我在这里和这里收集了一些关于贝叶斯和 MaxEnt 方法的哲学基础的链接。
注意术语:有时人们称他们的方法为贝叶斯,如果它在某些时候使用贝叶斯规则。同样,“MaxEnt”有时用于某些有利于高熵解决方案的方法。这与上面描述的“MaxEnt 推理”或“贝叶斯推理”不同