英文文档的单词/句子对齐

数据挖掘 文本挖掘 nlp 机器翻译
2022-02-23 01:19:58

我有一个英文文档,它被预处理成两个版本。我想对齐这两个版本的文档中的单词或句子。一个简单的例子如下:

I don't want to go there. My e-mail address ok.

应该与

I do n't want to go there my email address ok

或者第一句中的标记与第二句中的标记正确对齐。我尝试了一些序列比对方法,但效果不佳。考虑到机器翻译有对齐工具,英语的自动对齐应该更容易吧?

1个回答

使用 kaldi align-text,它使用 Levenshtein 距离对齐两个句子。

代码:https ://github.com/kaldi-asr/kaldi/blob/master/src/bin/align-text.cc