使用 Google Translate API 创建翻译数据集

数据挖掘 数据集 nlp 机器翻译 谷歌
2022-02-21 08:33:04

这是个好主意吗?;-)
这样做合法吗?向公众发布这样的数据集是否合法?

假设我有一种语言 X,我想为其创建一个用于与英语进行翻译的数据集,但我没有在线资源可以从中提取数据。但是我们巨大的谷歌翻译不知何故支持语言 X。

我们可以使用 Google Translate API 从英语数据集中为我的语言 X 转储翻译并创建一个粗略的数据集吗?

3个回答

这取决于。谷歌翻译适用于某些语言对,但不适用于其他语言。根据我的个人经验,将北欧语言(荷兰语、丹麦语、瑞典语)翻译成英语几乎可以完美地工作,而英语-意大利语翻译则导致效果不佳。

你可以在这里找到一个西班牙语-英语数据集,这是一个非常官方的来源。

此外, DeepL似乎是一个很棒的德语 <-> 英语在线翻译器。

就将数据用于机器学习模型的初始训练而言,这是一个非常好的主意,因为谷歌翻译会产生出色的结果,这将为您提供关于如何构建和改进机器学习模型并保存的非常好的想法从长远来看,你的时间。

至于向公众发布数据集,谷歌有一个提供信息的网站,据我了解,他们只想要归属。但是,如果您要转储大于 500k 个字符的数据集,因为这是每月免费使用的层级,似乎更有可能违反他们不允许我们的可接受使用政策to disable, interfere with or circumvent any aspect of the Services

从我对网站的阅读来看,谷歌没有提供任何直接的答案。但他们甚至有一个特殊的表格来询问是否发布谷歌云翻译,所以我鼓励使用该表格直接询问他们。

在此处输入图像描述

我认为这不是一个好主意,因为它归结为基于另一个模型的预测来训练一个模型。所以无论你的模型有多好,它所能达到的最好的就是谷歌翻译获得的性能。换句话说,它将学习谷歌翻译所犯的错误并将其添加到混合中。但我想总比没有好,如果你别无选择。

我不知道法律上的影响,但上次我检查一个必须付费才能自动执行大量翻译查询(超过一定数量的免费允许)。