如何估计 lambda e 以重新权衡字典中条目的翻译概率

数据挖掘 算法 机器翻译 参数估计
2022-02-15 10:56:38

本文中,布朗等人。除了我们在统计机器翻译数学中习惯的机器翻译概率之外,还提出了字典条目的使用。

他描述:

我们将字典行为的直观描述形式化如下。我们想象一个词典编纂者在为英语单词或短语 e 构建一个条目时,首先选择一个随机大小的 s,然后随机选择一个使用 e 的 s 个实例的样本,每个实例都有其法语翻译。我们进一步想象,他在他的 ea 列表条目中包含所有在他的随机样本中至少出现一次的平铺翻译。他将以这种方式获得瓦片列表 fi, ..., f,,, 的概率是

在此处输入图像描述

这么多是可以理解的,Pr(f|e)公式中的 是我们从正常的机器翻译概率中得到的。然后通过寻找词典编纂者在给定英语单词/短语的情况下选择样本句子的概率的二项式递归重新加权,即Pr(s|e)

然后他继续简单的公式并估计泊松分布而不是二项分布,这将简化计算:

在此处输入图像描述

一切看起来都还不错,但还有一个额外的变量exp^lambda(e),他解释说是在给定英文源词的情况下选择样本示例的 Possion 分布的平均值。

exp^lambda(e)那么问题是他是如何从语料库中估计出来的呢?

0个回答
没有发现任何回复~