我遇到的几篇论文说BLEU不是聊天机器人的合适评估指标,所以他们使用perplexity。
首先,什么是困惑?如何计算它?为什么困惑度是聊天机器人的一个很好的评估指标?
我遇到的几篇论文说BLEU不是聊天机器人的合适评估指标,所以他们使用perplexity。
首先,什么是困惑?如何计算它?为什么困惑度是聊天机器人的一个很好的评估指标?
带着困惑,您正试图评估模型生成的令牌(在您的情况下可能是句子)分布与测试数据中的令牌分布之间的相似性。
例如,假设你有句子, 每个都有概率, 困惑是在哪里为了.
请注意,虽然 perplexity 可能有助于捕获模型的某些方面,但它绝不是完美的,即使您能够达到很高的 perplexity 分数,它也不一定会转化为一个好的甚至可以工作的聊天机器人。
困惑度的定义和计算,请参考这个答案。
谷歌提出了一种人类评估指标,称为敏感性和特异性平均值 (SSA),它结合了类人聊天机器人的两个基本方面:有意义和具体。他们进行了一些实验,发现困惑与 SSA 非常吻合。
以下是论文中的解释:
困惑度衡量模型对测试集数据的预测程度;换句话说,它预测人们接下来会说什么的准确程度。
我们的结果表明,人类指标的大部分差异可以用测试困惑来解释。
他们的实验表明,SSA 和困惑度之间有很强的相关性(困惑度越低,SSA 越高)。
参考: