关于最大熵分类器的文本、文章和论文往往有两种类型:更流行的“上层”和更技术性的。
流行的品种擅长解释最大熵的概念,以及为什么这种分类器被认为比朴素贝叶斯分类器更好(以及为什么它们更难计算)。
然而,关于如何确定系数的讨论更加繁重。或者当我试图阅读它们时它们一直存在——也许我需要一些睡眠并且没有客户打扰:-)
是否有任何关于最大熵系数确定的中间描述 - 特别是对于梯度/准牛顿方法(而不是迭代方法)。IE。如何使用这些方法来确定适合训练数据的最佳系数。我查看了代码,我想我在理解分类器代码本身和梯度代码(LBFGSB、CG 等)之间的联系时遇到了概念性问题。