为什么困惑度是聊天机器人的一个很好的评估指标?

人工智能 自然语言处理 聊天机器人 公制
2021-11-02 00:51:53

我遇到的几篇论文说BLEU不是聊天机器人的合适评估指标,所以他们使用perplexity

首先,什么是困惑如何计算它?为什么困惑度是聊天机器人的一个很好的评估指标?

2个回答

带着困惑,您正试图评估模型生成的令牌(在您的情况下可能是句子)分布与测试数据中的令牌分布之间的相似性。

例如,假设你有M句子s1,,sM, 每个都有概率P(si), 困惑是

2l,
在哪里l=1MP(si)logP(si)为了i[1M].

请注意,虽然 perplexity 可能有助于捕获模型的某些方面,但它绝不是完美的,即使您能够达到很高的 perplexity 分数,它也不一定会转化为一个好的甚至可以工作的聊天机器人。

困惑度的定义和计算,请参考这个答案

谷歌提出了一种人类评估指标,称为敏感性和特异性平均值 (SSA),它结合了类人聊天机器人的两个基本方面:有意义和具体。他们进行了一些实验,发现困惑与 SSA 非常吻合。

以下是论文中的解释:

困惑度衡量模型对测试集数据的预测程度;换句话说,它预测人们接下来会说什么的准确程度。
我们的结果表明,人类指标的大部分差异可以用测试困惑来解释。

他们的实验表明,SSA 和困惑度之间有很强的相关性(困惑度越低,SSA 越高)。 在此处输入图像描述

参考:

  1. 迈向类似人类的开放域聊天机器人