我正在为文本预测训练基于字符的 RNN 模型,并希望将其与类似模型进行比较。由于大多数文献都使用基于单词的困惑度作为性能指标,那么从基于字符的模型计算基于单词的困惑度的“正确”方法是什么?
char-rnn 模型中基于词的困惑
数据挖掘
nlp
rnn
2021-10-13 06:17:24
1个回答
实际上,有一个公式可以轻松转换基于字符的 PPL 和基于单词的 PPL。
在哪里 是基于字符的 , 和 分别是测试集中的字符数和单词数。
这个公式并不完全公平,但它至少提供了一种比较它们的方法。以下是一些参考。
[1] Hwang K, Sung W. 具有分层递归神经网络的字符级语言建模[J]. 2016 年。
[2] Graves A. 使用循环神经网络生成序列[J]。计算机科学,2013 年。
[3] T. Mikolov、I. Sutskever、A. Deoras、H. Le、S. Kombrink 和 J. Cernocky. 使用神经网络的子词语言建模。技术报告,未发表的手稿,2012 年。
其它你可能感兴趣的问题