nlp 中的插值 - O 项的定义

数据挖掘 nlp 插值
2022-02-20 07:09:41

阅读下面的插值定义 O 术语是如何定义的?这是手动设置的值吗?

例子

  • P(山姆|我是)=计数(山姆我是)/计数(我是)= 1 / 2

使用 N-gram 进行插值

我们可以通过使用插值来结合每个 n-gram 的知识。

例如,假设我们已经计算了 unigram、bigram 和 trigram 概率,我们可以这样做:

P ( Sam | 我是 ) = Θ 1 x P( Sam ) + Θ 2 x P( Sam | am ) + Θ 3 x P( Sam | 我是)

原始问题陈述图片

2个回答

术语点:那些符号不是O,而是 thetas Θ

令人困惑的是,这些标记为 theta 的值通常称为 lambdas,如您引用的页面中所示。它们是用于插值(与退避相反)的权重,总和为 1,可以通过多种方法从语料库本身计算:

这些 λ 值是如何设置的?简单插值和条件插值 λs 都是从保留的语料库中学习的。保留语料库是一个额外的训练语料库,我们通过选择使保留语料库的可能性最大化的 λ 值来设置像这些 λ 值这样的超参数。也就是说,我们固定 N-gram 概率,然后搜索插入方程式时的 λ 值。4.24给出了保留集的最高概率。有多种方法可以找到这个最优的 λs 集。一种方法是使用第 7 章中定义的 EM 算法,这是一种迭代学习算法,收敛于局部最优 λs (Jelinek and Mercer, 1980)

您会将 thetas 视为概率。因此它们必须大于 0,并且它们的总和必须为 1。从技术上讲,您可以手动设置它们,但您可以使用多种方法找到 theta 的最佳值。