试图理解交叉熵和困惑之间的关系。一般来说,对于模型M,Perplexity(M)=2^entropy(M)。这种关系是否适用于所有不同的 n-gram,即 unigram、bigram 等?
n-gram 模型的困惑度和交叉熵
机器算法验证
自然语言
熵
困惑
2022-03-23 19:20:57
2个回答
是的,困惑度总是等于熵的二次方。无论您拥有什么类型的模型,n-gram、unigram 或神经网络。
语言建模人员喜欢困惑而不是仅仅使用熵有几个原因。一个是,由于指数的原因,困惑度的改进“感觉”比熵的等效改进更显着。另一个是在他们开始使用困惑之前,语言模型的复杂性是使用简单的分支因子测量来报告的,这种测量更类似于困惑而不是熵。
同意@Aaron 的回答,稍作修改:
它并不总是等于熵的二次方。实际上,它将是(对数的基础)熵的幂。如果您使用 e 作为基础,那么它将是 e^entropy。
其它你可能感兴趣的问题