在拼写校正、机器翻译和语音识别等许多自然语言处理应用中,我们使用语言模型。语言模型通常是通过计算单词序列(n-gram)在大型语料库中出现的频率并标准化计数以创建概率来创建的。为了解释看不见的 n-gram,我们使用平滑方法(参见此处列出的几个),该方法从模型中证明的 n-gram 中获取一些概率质量,并将该质量分布在低阶 n-gram(较短的单词序列) 退避概率。
由于计算必须将分布保持为概率(必须加起来为 1)的约束,许多平滑技术在数学上变得复杂。
这种约束的原因是什么?使用严格的概率进行预测而不是任何其他类型的分数有什么优势?
PS链接对应的参考文献是[Stanley F. Chen and Joshua Goodman (1998), “An Empirical Study of Smoothing Techniques for Language Modeling”]。