最大熵和多项逻辑函数

机器算法验证 物流 最大熵
2022-04-04 12:06:25

我有一个新手问题。我试图从谷歌找到答案,但无法得到明确的答案。

MaxEnt 模型是否与多项逻辑回归(即 softmax 回归)完全相同?

看起来两者都试图估计 softmax 函数的参数。只是想知道,那么,它们之间有什么区别?他们是否使用不同的学习方法?

2个回答

MaxEnt是一种设计模型的方法SoftMax本身就是一个模型。


MaxEnt 是一种描述观察者对某些系统及其变量的知识状态的方法。例如,如果我有兴趣研究仅取决于一个真实参数的情况 x我知道(从实验数据或我的理论模型)这个参数的数据分布的唯一相关特征是它的平均值,我可以这样做:

Ep(x)[x]=dx xp(x)λ

在哪里λ是通过实验定义的。然后,使用 MaxEnt 方法,概率分布“更合理”(假设条件更少p(x)),是指数分布:

p(X|λ)=λe-λX

这种方法非常有用,在统计物理学、信息论、统计学、机器学习等方面有很多应用。更多信息可以在Wikipedia许多 不同的 来源上找到。

更一般地,可以使用具有约束的Discrete MaxEntp[F一世(是的j)]=j=1CF一世(是的j)p(是的j)F一世为了一世=1,,ķ获得概率分布:

pj=p(是的j)=1Z经验(一世=1ķλ一世F一世(是的j))

它可以被开发成一个 softmax 函数(我自己没有做过,但我怀疑它一定是类似于本文的内容。


tl;dr MaxEnt 是一种开发概率模型的方法,因此它可以为我们提供非 SoftMax 的其他分类模型。这完全取决于模型的(信息)假设

您应该将最大熵与最大似然进行比较,而不是多项 Logistic 回归。

最大熵和最大似然的对偶是约束优化中更普遍的对偶现象的一个例子。

在此处输入图像描述

Berger, AL, Pietra, VJD 和 Pietra, SAD (1996)。自然语言处理的最大熵方法。计算语言学,22(1),39-71。