机器算法验证 - 语言建模：为什么加起来 1 如此重要？ - 吾爱随笔录

在拼写校正、机器翻译和语音识别等许多自然语言处理应用中，我们使用语言模型。语言模型通常是通过计算单词序列（n-gram）在大型语料库中出现的频率并标准化计数以创建概率来创建的。为了解释看不见的 n-gram，我们使用平滑方法（参见此处列出的几个），该方法从模型中证明的 n-gram 中获取一些概率质量，并将该质量分布在低阶 n-gram（较短的单词序列) 退避概率。

由于计算必须将分布保持为概率（必须加起来为 1）的约束，许多平滑技术在数学上变得复杂。

这种约束的原因是什么？使用严格的概率进行预测而不是任何其他类型的分数有什么优势？

PS链接对应的参考文献是[Stanley F. Chen and Joshua Goodman (1998), “An Empirical Study of Smoothing Techniques for Language Modeling”]。