数据挖掘 - 如何计算语言模型的困惑度？ - 吾爱随笔录

数据挖掘 nlp

2022-02-15 14:47:13

在Dan Jurafsky 在他的自然语言处理课程中关于计算模型困惑度的语言建模讲座之一中，在幻灯片 33 中，他给出了困惑度的公式

然后，在下一张幻灯片 34 中，他提出了以下场景：

“如果系统必须识别 • 操作员（四分之一） • 销售（四分之一） • 技术支持（四分之一） • 30,000 个名字（每个名字中有 120,000 个）”

在这种情况下，困惑度是 53。

谁能解释答案 53 是怎么来的？

1个回答

我相信他的意思是：您需要识别/预测 4 个连续事物的序列。首先：操作员，然后是销售人员，然后是技术支持人员，最后是 30,000 个名字中的一个。一个且只有一个序列是正确的。

正确序列的概率：

(1 / 4) * (1 / 4) * (1 / 4) * (1 / 120, 000) = 0.0000001302083333

$(1/4)*(1/4)*(1/4)*(1/120,000) = 0.0000001302083333$

如果你得到第四个根，那就是几何平均值（从某种意义上说，这是四步的每一步的平均值）

(0.0000001302083333)^{.25} = 0.01899589214 \approx (1 / 53)

$(0.0000001302083333)^.25 = 0.01899589214 ≈ (1/53)$

所以：

(1 / 53) * (1 / 53) * (1 / 53) * (1 / 53) \approx (1 / 4) * (1 / 4) * (1 / 4) * (1 / 120, 000)

$(1/53)*(1/53)*(1/53)*(1/53) ≈ (1/4)*(1/4)*(1/4)*(1/120,000)$

然而，幻灯片或解释中并不清楚。

其它你可能感兴趣的问题