n-gram 模型的困惑度和交叉熵

机器算法验证 自然语言 困惑
2022-03-23 19:20:57

试图理解交叉熵和困惑之间的关系。一般来说,对于模型MPerplexity(M)=2^entropy(M)这种关系是否适用于所有不同的 n-gram,即 unigram、bigram 等?

2个回答

是的,困惑度总是等于熵的二次方。无论您拥有什么类型的模型,n-gram、unigram 或神经网络。

语言建模人员喜欢困惑而不是仅仅使用熵有几个原因。一个是,由于指数的原因,困惑度的改进“感觉”比熵的等效改进更显着。另一个是在他们开始使用困惑之前,语言模型的复杂性是使用简单的分支因子测量来报告的,这种测量更类似于困惑而不是熵。

同意@Aaron 的回答,稍作修改:

它并不总是等于熵的二次方。实际上,它将是(对数的基础)熵的幂。如果您使用 e 作为基础,那么它将是 e^entropy。