我正在阅读语音和语言处理,Jurafsky 和 Martin,特别是第 4 章,他们介绍了困惑,请参阅https://web.stanford.edu/~jurafsky/slp3/4.pdf(第 8-9 页)
这里有一个简短的摘录:
还有另一种思考困惑的方法:作为一种语言的加权平均分支因子。语言的分支因子是可以跟随任何单词的可能下一个单词的数量。考虑识别英文数字(零、一、二、...、九)的任务,假设这 10 个数字中的每一个都以相等的概率出现. 这种迷你语言的困惑度实际上是 10。为了看到这一点,想象一串长度为 N 的数字。根据公式(4.17),困惑度将是:
但是现在假设数字 0 非常频繁,并且出现的频率是其他数字的 10 倍。现在我们应该期望困惑度会更低,因为大多数时候下一个数字将为零。因此,尽管分支因子仍为 10,但困惑度或加权分支因子更小。我们把这个计算留给读者作为练习。
现在这应该相当简单,我进行了计算,但我得到的不是更低的困惑,而是更高的困惑。
我的计算是:
数字零的概率是其他概率的 10 倍。
所有数字的概率之和必须加起来为 1
这意味着:
所以把它代入困惑公式 我得到的数字:
这比之前计算的所有数字都相等的困惑更多可能性。
这本书预计会降低困惑度,我做错了什么?