机器算法验证 - MaxEnt、ML、Bayes等统计推断方法的比较 - 吾爱随笔录

MaxEnt、ML、Bayes等统计推断方法的比较

机器算法验证熵推理

2022-02-05 01:30:47

我绝不是统计学家（我有过数理统计课程，但仅此而已），最近，在学习信息论和统计力学时，我遇到了一个叫做“不确定性度量”/“熵”的东西。我把它的 Khinchin 推导读作不确定性的衡量标准，这对我来说很有意义。另一件有意义的事情是 Jaynes 对 MaxEnt 的描述，以便在您知道样本上一个或多个函数的算术平均值时获得统计数据（假设您接受 $-\sum p_i\ln p_i$ 当然作为不确定性的衡量标准）。

于是我在网上搜索，寻找与其他统计推断方法的关系，上帝把我弄糊涂了。例如，本文建议，假设我做对了，您只需在问题的适当重新表述下获得一个 ML 估计器；MacKey 在他的书中说 MaxEnt 可以给你一些奇怪的东西，你不应该使用它，即使是在贝叶斯推理中的初始估计。等等。我很难找到好的比较。

我的问题是，您能否提供 MaxEnt 的弱点和强点的解释和/或很好的参考作为一种统计推断方法，并与其他方法进行定量比较（例如，当应用于玩具模型时）？

3个回答

MaxEnt 和贝叶斯推理方法对应于将信息合并到建模过程中的不同方式。两者都可以放在公理基础上（John Skilling 的“Axioms of Maximum Entropy”和 Cox 的“Algebra of Probable Inference”）。

如果您的先验知识以假设空间上可测量的实值函数的形式出现，那么贝叶斯方法很容易应用，即所谓的“先验”。当信息作为假设空间的一组硬约束时，MaxEnt 很简单。在现实生活中，知识既不是“先验”形式，也不是“约束”形式，所以你的方法的成功取决于你以相应形式表示你的知识的能力。

在一个玩具问题上，当先验与假设的真实分布相匹配时，贝叶斯模型平均将为您提供最低的平均对数损失（在许多模型绘制中平均）。当满足其约束时， MaxEnt 方法将为您提供最低的最坏情况对数损失（最坏的情况是所有可能的先验）

ETJaynes，被认为是“MaxEnt”方法之父，也依赖于贝叶斯方法。在他的书的第 1412 页，他给出了一个例子，其中贝叶斯方法产生了一个很好的解决方案，然后是一个 MaxEnt 方法更自然的例子。

最大似然本质上将模型置于某个预先确定的模型空间内，并试图“尽可能地”拟合它，因为它对所有模型选择方法中的数据具有最高的敏感性，仅限于此类模型空间。MaxEnt 和 Bayesian 是框架，而 ML 是一种具体的模型拟合方法，对于某些特定的设计选择，ML 最终可以采用 Bayesian 或 MaxEnt 方法的方法。例如，具有等式约束的 MaxEnt 等价于某个指数族的最大似然拟合。类似地，贝叶斯推理的近似可以导致正则化的最大似然解。如果您选择先验以使您的结论对数据最大敏感，则贝叶斯推理的结果将对应于最大似然拟合。例如， $p$ 在伯努利试验中，这样的先验将是限制分布 Beta(0,0)

现实生活中的机器学习成功往往是各种哲学的混合体。例如，“随机场”源自MaxEnt 原则。该想法最流行的实现，即正则化 CRF，涉及在参数上添加“先验”。因此，该方法不是真正的 MaxEnt 也不是贝叶斯，而是受到这两种思想流派的影响。

我在这里和这里收集了一些关于贝叶斯和 MaxEnt 方法的哲学基础的链接。

注意术语：有时人们称他们的方法为贝叶斯，如果它在某些时候使用贝叶斯规则。同样，“MaxEnt”有时用于某些有利于高熵解决方案的方法。这与上面描述的“MaxEnt 推理”或“贝叶斯推理”不同

对于最大熵方法的有趣批评，我建议阅读 sci.stat.math 和 sci.stat.consult 上的一些旧新闻组帖子，尤其是 Radford Neal 的那些：

我不知道 maxent 和其他方法之间的任何比较：部分问题似乎是 maxent 并不是一个真正的框架，而是一个模棱两可的指令（“当面对未知数时，只需最大化熵”），即不同的人有不同的解释。

的确，在过去，MaxEnt 和 Bayes 处理了不同类型或形式的信息。我会说贝叶斯也使用“硬”约束，但可能性。

无论如何，这不再是问题，因为可以从最大相对熵 (MrE) 中获得贝叶斯规则（而不是乘积规则），而不是以一种模棱两可的方式：

这是一个新世界...

其它你可能感兴趣的问题

上一篇为什么贝叶斯优化在 20 多个维度上表现不佳？下一篇随机森林是否需要对输入变量进行缩放或居中？