实施反向翻译作为文本分类的数据增强

数据挖掘 深度学习 nlp 文本 数据增强 机器翻译
2022-03-04 22:32:38

由于反向翻译英语->其他语言->英语似乎是一种非常有用的数据增强技术,我想尝试一下。例如,我突然想到,来自非常不同语言家族的语言(但由于经济原因得到很好的支持,例如中文、俄语、西班牙语、韩语、阿拉伯语……)可能会在反向翻译中产生多种影响。

商业翻译 API 将是一种直接的方式,但如果没有免费的 API 密钥或我的组织提供的预算(不符合学术资格),这对于私人事物来说很快就会相当昂贵。

预训练的翻译模型似乎是一个明显的选择(我有一个用于推理的 GPU,但显然这不足以从头开始训练所有模型),但我无法找到任何 OpenNMT 变体的模型。其他使用过这种方法的人有什么建议吗?

1个回答

我发现的一种选择是通过 Google Research 公开的无监督数据增强存储库进行反向翻译。这是基于这篇论文