寻找关于创建最大熵分类器的可理解讨论

计算科学 机器学习
2021-12-13 06:17:30

关于最大熵分类器的文本、文章和论文往往有两种类型:更流行的“上层”和更技术性的。

流行的品种擅长解释最大熵的概念,以及为什么这种分类器被认为比朴素贝叶斯分类器更好(以及为什么它们更难计算)。

然而,关于如何确定系数的讨论更加繁重。或者当我试图阅读它们时它们一直存在——也许我需要一些睡眠并且没有客户打扰:-)

是否有任何关于最大熵系数确定的中间描述 - 特别是对于梯度/准牛顿方法(而不是迭代方法)。IE。如何使用这些方法来确定适合训练数据的最佳系数。我查看了代码,我想我在理解分类器代码本身和梯度代码(LBFGSB、CG 等)之间的联系时遇到了概念性问题。

1个回答

Jaynes, ET, 2003, Probability Theory: The Logic of Science, Chapter 11中有相当广泛的讨论,可能值得一读。

更一般地说,在所提出的模型和用于解决它们的优化方法之间通常存在 stats/ML 的分离。在简单模型的情况下,优化原则通常也很简单。然而,有时一个看似简单的模型需要复杂的优化程序才能提高效率,我相信这里就是这种情况。当然,可以采取许多不同的方法来解决单个问题,最有效的方法可能取决于其他因素(样本大小、维度、数据的等级不足等)。最近的一本书《机器学习优化》收集了一系列关于该主题的论文,提供了对该领域的相当全面的覆盖。