是什么让谷歌翻译在拉丁语上失败了?

人工智能 自然语言处理 谷歌翻译
2021-11-14 09:02:09

正如这里所讨论,我也在其他拉丁语论坛上看到过,每个人都抱怨谷歌翻译无法翻译拉丁语。从我个人的经验来看,其他语言(包括浪漫语言)并没有那么糟糕。

那么,是什么让谷歌翻译无法翻译拉丁语呢?是关于它的语法和语法还是缺少数据?

2个回答

我不知道 Google 使用什么模型进行翻译,但他们很有可能使用的是当今的 SOTA 深度学习模型之一。

最新的 NLP 模型是在从网络上抓取的数据上训练的,例如 OpenAI 的GPT-2在 800 万网页的数据集上进行训练,Google 的BERT在 BookCorpus(8 亿字)和英语维基百科(250 万字)页面上进行训练。

现在想想拉丁文网页的数量,并注意到有超过 600 万篇英文维基百科文章,但拉丁文的不到 135.000 篇(见这里)。

如您所见,海量数据对于神经机器翻译至关重要,我认为对于拉丁语来说根本就没有足够的数据。再加上拉丁语是最复杂和最复杂的语言之一,这使得任务变得并不容易。也许谷歌和公司也较少关注一种不再使用的“死”语言,并且为了教育目的而存在更多是正确的。

简单的旧拉丁语与拉丁语不同,在语言中将单词添加到不说的书面语言以及单词的倒序以具有正向含义。