人工智能 - 为什么困惑度是聊天机器人的一个很好的评估指标？ - 吾爱随笔录

人工智能自然语言处理聊天机器人公制蓝

2021-11-02 00:51:53

我遇到的几篇论文说BLEU不是聊天机器人的合适评估指标，所以他们使用perplexity。

首先，什么是困惑？如何计算它？为什么困惑度是聊天机器人的一个很好的评估指标？

2个回答

带着困惑，您正试图评估模型生成的令牌（在您的情况下可能是句子）分布与测试数据中的令牌分布之间的相似性。

例如，假设你有 $M$ 句子 $s_1, \dots, s_M$ , 每个都有概率 $P(s_i)$ , 困惑是

2^{- l},

$2^{-l},$ 在哪里

l = \frac{1}{M} \sum P (s_{i}) \log P (s_{i})

$l = \frac{1}{M} \sum P(s_i) \log P(s_i)$ 为了

i \in [1 \dots M]

$i \in [1 \dots M]$ .

请注意，虽然 perplexity 可能有助于捕获模型的某些方面，但它绝不是完美的，即使您能够达到很高的 perplexity 分数，它也不一定会转化为一个好的甚至可以工作的聊天机器人。

困惑度的定义和计算，请参考这个答案。

谷歌提出了一种人类评估指标，称为敏感性和特异性平均值 (SSA)，它结合了类人聊天机器人的两个基本方面：有意义和具体。他们进行了一些实验，发现困惑与 SSA 非常吻合。

以下是论文中的解释：

困惑度衡量模型对测试集数据的预测程度；换句话说，它预测人们接下来会说什么的准确程度。
我们的结果表明，人类指标的大部分差异可以用测试困惑来解释。

他们的实验表明，SSA 和困惑度之间有很强的相关性（困惑度越低，SSA 越高）。

参考：

其它你可能感兴趣的问题