语言建模:为什么加起来 1 如此重要?

机器算法验证 分布 造型 自然语言 语言模型
2022-03-23 08:05:43

在拼写校正、机器翻译和语音识别等许多自然语言处理应用中,我们使用语言模型。语言模型通常是通过计算单词序列(n-gram)在大型语料库中出现的频率并标准化计数以创建概率来创建的。为了解释看不见的 n-gram,我们使用平滑方法(参见此处列出的几个),该方法从模型中证明的 n-gram 中获取一些概率质量,并将该质量分布在低阶 n-gram(较短的单词序列) 退避概率。

由于计算必须将分布保持为概率(必须加起来为 1)的约束,许多平滑技术在数学上变得复杂。

这种约束的原因是什么?使用严格的概率进行预测而不是任何其他类型的分数有什么优势?

PS链接对应的参考文献是[Stanley F. Chen and Joshua Goodman (1998), “An Empirical Study of Smoothing Techniques for Language Modeling”]。

1个回答

使用严格概率的主要优点是 a) 易于解释数字;b) 能够在后续分析中使用贝叶斯定理和其他概率方法。但在某些情况下,这是不必要的。例如,如果您只想对结果进行排名而不进行进一步分析,则无需对分数进行归一化。