如何为新语言构建机器翻译系统

数据挖掘 机器学习 nlp 机器翻译
2022-02-25 10:59:10

我试图找出为现有机器翻译尚不支持的语言构建自然语言翻译模型的选项。该项目是建立一个系统,用于将一种非常有限的东非小语种翻译成英语(只需要单向)。
据我所知,该语言尚未得到任何机器翻译系统的支持,但它与其他几种主要的非洲语言有关(将句子放入谷歌翻译,该语言主要被自动检测为斯瓦希里语或绍纳语,有时可以使用英文翻译)。

我知道为一种新语言构建翻译器绝非易事,但问题域非常小,我认为它应该是可行的。大型云提供商、ML 框架或将这些模型构建为服务的供应商是否有任何功能?

如果这不是这个问题的正确堆栈交换,请引导我到一个更好的地方。

1个回答

我认为您的案例将受益于现有语言调整为新语言,但如果您打算将其用于商业用途,这只是一个好方法。谷歌也接受帮助以改进他们的翻译算法,你可以请求他们为此组建一个团队并捐赠数据。

Google 使用他们称之为 Google 的 NMT(神经机器翻译)的神经网络进行翻译,它作为编码器-解码器对工作。您可以在他们的论文上阅读更多内容

此外,谷歌的 NMT 在 tensorflow 中可用,可以训练和改进。它是Apache License 2.0下的许可证,并且在他们的 GitHub 上有一个很好的教程和解释:

在此处检查此 GitHub 文件夹