我有一个英文文档,它被预处理成两个版本。我想对齐这两个版本的文档中的单词或句子。一个简单的例子如下:
I don't want to go there. My e-mail address ok.
应该与
I do n't want to go there my email address ok
或者第一句中的标记与第二句中的标记正确对齐。我尝试了一些序列比对方法,但效果不佳。考虑到机器翻译有对齐工具,英语的自动对齐应该更容易吧?
我有一个英文文档,它被预处理成两个版本。我想对齐这两个版本的文档中的单词或句子。一个简单的例子如下:
I don't want to go there. My e-mail address ok.
应该与
I do n't want to go there my email address ok
或者第一句中的标记与第二句中的标记正确对齐。我尝试了一些序列比对方法,但效果不佳。考虑到机器翻译有对齐工具,英语的自动对齐应该更容易吧?
使用 kaldi align-text,它使用 Levenshtein 距离对齐两个句子。
代码:https ://github.com/kaldi-asr/kaldi/blob/master/src/bin/align-text.cc