机器算法验证 - 数字 [0-9] 的迷你语言的困惑是什么，其中 0 的概率是其他数字的 10 倍？ - 吾爱随笔录

我正在阅读语音和语言处理，Jurafsky 和 Martin，特别是第 4 章，他们介绍了困惑，请参阅https://web.stanford.edu/~jurafsky/slp3/4.pdf（第 8-9 页）

这里有一个简短的摘录：

还有另一种思考困惑的方法：作为一种语言的加权平均分支因子。语言的分支因子是可以跟随任何单词的可能下一个单词的数量。考虑识别英文数字（零、一、二、...、九）的任务，假设这 10 个数字中的每一个都以相等的概率出现 $P = 1/10$ . 这种迷你语言的困惑度实际上是 10。为了看到这一点，想象一串长度为 N 的数字。根据公式（4.17），困惑度将是：

$PP(W) = ({\frac{1}{10}}^{N})^{-{\frac {1}{N}}} = ({\frac{1}{10}})^{-1} = 10$

但是现在假设数字 0 非常频繁，并且出现的频率是其他数字的 10 倍。现在我们应该期望困惑度会更低，因为大多数时候下一个数字将为零。因此，尽管分支因子仍为 10，但困惑度或加权分支因子更小。我们把这个计算留给读者作为练习。

现在这应该相当简单，我进行了计算，但我得到的不是更低的困惑，而是更高的困惑。

我的计算是：

数字零的概率是其他概率的 10 倍。

$P(0) = 10 * P(n =\{1,2,..,9\})$

所有数字的概率之和必须加起来为 1

$10 * P(n =\{1,2,..,9\}) + 9 * P(n =\{1,2,..,9\}) = 1$

这意味着：

$P(n =\{1,2,..,9\}) = {\frac {1}{19}}$

$P(0) = {\frac {10}{19}}$

所以把它代入困惑公式 $PP(W) = P(w_1,w_2,..,w_N)^{-{\frac{1}{N}}}$ 我得到的数字：

$PP(0,1,..,9) = ({\frac {10}{19}} * {\frac {1}{19}}^9)^{-{\frac{1}{10}}} = 15.09224$

这比之前计算的所有数字都相等的困惑更多 ${\frac{1}{10}}$ 可能性。

这本书预计会降低困惑度，我做错了什么？