MaxEnt、ML、Bayes等统计推断方法的比较

机器算法验证 推理
2022-02-05 01:30:47

我绝不是统计学家(我有过数理统计课程,但仅此而已),最近,在学习信息论和统计力学时,我遇到了一个叫做“不确定性度量”/“熵”的东西。我把它的 Khinchin 推导读作不确定性的衡量标准,这对我来说很有意义。另一件有意义的事情是 Jaynes 对 MaxEnt 的描述,以便在您知道样本上一个或多个函数的算术平均值时获得统计数据(假设您接受pilnpi当然作为不确定性的衡量标准)。

于是我在网上搜索,寻找与其他统计推断方法的关系,上帝把我弄糊涂了。例如,本文建议,假设我做对了,您只需在问题的适当重新表述下获得一个 ML 估计器;MacKey 在他的书中说 MaxEnt 可以给你一些奇怪的东西,你不应该使用它,即使是在贝叶斯推理中的初始估计。等等。我很难找到好的比较。

我的问题是,您能否提供 MaxEnt 的弱点和强点的解释和/或很好的参考作为一种统计推断方法,并与其他方法进行定量比较(例如,当应用于玩具模型时)?

3个回答

MaxEnt 和贝叶斯推理方法对应于将信息合并到建模过程中的不同方式。两者都可以放在公理基础上(John Skilling 的“Axioms of Maximum Entropy”和 Cox 的“Algebra of Probable Inference”)。

如果您的先验知识以假设空间上可测量的实值函数的形式出现,那么贝叶斯方法很容易应用,即所谓的“先验”。当信息作为假设空间的一组硬约束时,MaxEnt 很简单。在现实生活中,知识既不是“先验”形式,也不是“约束”形式,所以你的方法的成功取决于你以相应形式表示你的知识的能力。

在一个玩具问题上,当先验与假设的真实分布相匹配时,贝叶斯模型平均将为您提供最低的平均对数损失(在许多模型绘制中平均)。当满足其约束时, MaxEnt 方法将为您提供最低的最坏情况对数损失(最坏的情况是所有可能的先验)

ETJaynes,被认为是“MaxEnt”方法之父,也依赖于贝叶斯方法。他的书的第 1412 页,他给出了一个例子,其中贝叶斯方法产生了一个很好的解决方案,然后是一个 MaxEnt 方法更自然的例子。

最大似然本质上将模型置于某个预先确定的模型空间内,并试图“尽可能地”拟合它,因为它对所有模型选择方法中的数据具有最高的敏感性,仅限于此类模型空间。MaxEnt 和 Bayesian 是框架,而 ML 是一种具体的模型拟合方法,对于某些特定的设计选择,ML 最终可以采用 Bayesian 或 MaxEnt 方法的方法。例如,具有等式约束的 MaxEnt 等价于某个指数族的最大似然拟合。类似地,贝叶斯推理的近似可以导致正则化的最大似然解。如果您选择先验以使您的结论对数据最大敏感,则贝叶斯推理的结果将对应于最大似然拟合。例如,p在伯努利试验中,这样的先验将是限制分布 Beta(0,0)

现实生活中的机器学习成功往往是各种哲学的混合体。例如,“随机场”源自MaxEnt 原则。该想法最流行的实现,即正则化 CRF,涉及在参数上添加“先验”。因此,该方法不是真正的 MaxEnt 也不是贝叶斯,而是受到这两种思想流派的影响。

我在这里这里收集了一些关于贝叶斯和 MaxEnt 方法的哲学基础的链接。

注意术语:有时人们称他们的方法为贝叶斯,如果它在某些时候使用贝叶斯规则。同样,“MaxEnt”有时用于某些有利于高熵解决方案的方法。这与上面描述的“MaxEnt 推理”或“贝叶斯推理”不同

对于最大熵方法的有趣批评,我建议阅读 sci.stat.math 和 sci.stat.consult 上的一些旧新闻组帖子,尤其是 Radford Neal 的那些:

我不知道 maxent 和其他方法之间的任何比较:部分问题似乎是 maxent 并不是一个真正的框架,而是一个模棱两可的指令(“当面对未知数时,只需最大化熵”),即不同的人有不同的解释。

的确,在过去,MaxEnt 和 Bayes 处理了不同类型或形式的信息。我会说贝叶斯也使用“硬”约束,但可能性。

无论如何,这不再是问题,因为可以从最大相对熵 (MrE) 中获得贝叶斯规则(而不是乘积规则),而不是以一种模棱两可的方式:

这是一个新世界...