计算困惑度

机器算法验证 信息论 自然语言
2022-04-10 07:42:10

在 Coursera NLP 课程中,Dan Jurafsky 计算了以下困惑度:

操作员(四分之一) 销售(四分之一) 技术支持(四分之一) 30,000 个名称(每个 120,000 个中的 1 个) 他说 Perplexity 是 53。

讲座可在此处找到:https ://youtu.be/b6nwdc_fGfA @ 8:40。

我一直在试图弄清楚它是如何计算的,但我就是不明白。由于 1/120000,我试图切换到日志,但我似乎仍然无法弄清楚。

2个回答

我偶然发现了这个搜索如何计算困惑度。我认为应用 Jurafsky 公式我找到了正确的数字(我使用了 R):

P1 <- 1/4
P2 <- 1/4
P3 <- 1/4
P4 <- 1/120000

SP <- P1*P2*P3*P4
Result <- SP**(-1/4)

结果是 52.64296

我将这里的概率解释为:假设总共有 120000 个单词,其中通过概率分布:

操作员、销售和技术支持各发生 30,000 次 (P = 1/4)

每个名称只出现一次 (P = 1/120000)。

然后可以使用以下公式计算困惑度: (143000014300001430000112000030000)1120000