这是个好主意吗?;-)
这样做合法吗?向公众发布这样的数据集是否合法?
假设我有一种语言 X,我想为其创建一个用于与英语进行翻译的数据集,但我没有在线资源可以从中提取数据。但是我们巨大的谷歌翻译不知何故支持语言 X。
我们可以使用 Google Translate API 从英语数据集中为我的语言 X 转储翻译并创建一个粗略的数据集吗?
这是个好主意吗?;-)
这样做合法吗?向公众发布这样的数据集是否合法?
假设我有一种语言 X,我想为其创建一个用于与英语进行翻译的数据集,但我没有在线资源可以从中提取数据。但是我们巨大的谷歌翻译不知何故支持语言 X。
我们可以使用 Google Translate API 从英语数据集中为我的语言 X 转储翻译并创建一个粗略的数据集吗?
就将数据用于机器学习模型的初始训练而言,这是一个非常好的主意,因为谷歌翻译会产生出色的结果,这将为您提供关于如何构建和改进机器学习模型并保存的非常好的想法从长远来看,你的时间。
至于向公众发布数据集,谷歌有一个提供信息的网站,据我了解,他们只想要归属。但是,如果您要转储大于 500k 个字符的数据集,因为这是每月免费使用的层级,似乎更有可能违反他们不允许我们的可接受使用政策to disable, interfere with or circumvent any aspect of the Services。
从我对网站的阅读来看,谷歌没有提供任何直接的答案。但他们甚至有一个特殊的表格来询问是否发布谷歌云翻译,所以我鼓励使用该表格直接询问他们。
我认为这不是一个好主意,因为它归结为基于另一个模型的预测来训练一个模型。所以无论你的模型有多好,它所能达到的最好的就是谷歌翻译获得的性能。换句话说,它将学习谷歌翻译所犯的错误并将其添加到混合中。但我想总比没有好,如果你别无选择。
我不知道法律上的影响,但上次我检查一个必须付费才能自动执行大量翻译查询(超过一定数量的免费允许)。