我目前正在尝试实施这篇论文,但我正在努力理解这里的一些数学。我很确定我了解如何实现 E-step,但是对于 M-step,我对如何计算 M-step 感到困惑。它在第 3.1 节之前说, 然后同样但与和交换了。第二部分对我来说很有意义,但什么是或者? 据我了解,是双文本中的句子。那么我们如何计算一个句子的概率呢?
前面说和是不影响优化问题的任意分布,但是我们如何计算?
谢谢!
我目前正在尝试实施这篇论文,但我正在努力理解这里的一些数学。我很确定我了解如何实现 E-step,但是对于 M-step,我对如何计算 M-step 感到困惑。它在第 3.1 节之前说, 然后同样但与和交换了。第二部分对我来说很有意义,但什么是或者? 据我了解,是双文本中的句子。那么我们如何计算一个句子的概率呢?
前面说和是不影响优化问题的任意分布,但是我们如何计算?
谢谢!
你是对的是英文句子的概率。估计一个句子的概率是通过语言模型来实现的。
这种机器翻译模型被称为噪声通道模型。嘈杂的通道模型说,给定一个法语句子,它最好的英文翻译是
在这个等式中是语言模型。回到 IBM 模型(基于噪声通道方法)的时代,它通常是基于 n-gram 的语言模型,计算为(假设 bigram)
和是需要使用EM算法求解的翻译模型。在 EM 算法内部,您不会更新语言模型参数,所以是的,和不影响优化问题。