机器算法验证 - n-gram 模型的困惑度和交叉熵 - 吾爱随笔录

机器算法验证自然语言熵困惑

2022-03-23 19:20:57

试图理解交叉熵和困惑之间的关系。一般来说，对于模型M，Perplexity(M)=2^entropy(M)。这种关系是否适用于所有不同的 n-gram，即 unigram、bigram 等？

2个回答

是的，困惑度总是等于熵的二次方。无论您拥有什么类型的模型，n-gram、unigram 或神经网络。

语言建模人员喜欢困惑而不是仅仅使用熵有几个原因。一个是，由于指数的原因，困惑度的改进“感觉”比熵的等效改进更显着。另一个是在他们开始使用困惑之前，语言模型的复杂性是使用简单的分支因子测量来报告的，这种测量更类似于困惑而不是熵。

同意@Aaron 的回答，稍作修改：

它并不总是等于熵的二次方。实际上，它将是（对数的基础）熵的幂。如果您使用 e 作为基础，那么它将是 e^entropy。

其它你可能感兴趣的问题