由于我还没有为我的大学项目找到任何好的训练数据,我想使用来自公共 Instagram 个人资料的图片和视频。我可以这样做吗?
可以使用公开的 Instagram 视频来训练 AI 吗?
根据美国版权法,这可能是合理使用
...但要小心记忆。如果 AI 输出的内容与原始作品非常相似,您可能会遇到更多麻烦。
此外,请咨询律师以帮助您将法律适用于您的具体情况。这只是关于一般法律原则的信息,而不是任何具体情况,而且我也不是律师。
首先,Instagram 上的绝大多数图片几乎肯定会受到版权保护,因为任何创意作品都会自动受到此类保护(政府作品等除外)。您要么需要许可证才能使用它,要么需要诸如合理使用之类的例外。
它需要法官考虑四个因素:
- 您使用的目的和性质
- 受版权保护作品的性质
- 所取部分的数量和实质
- 使用对潜在市场的影响。
让我们来看看它们。
您使用的目的和性质
这可能以作品是否具有变革性而广为人知。它究竟有多大的变革性取决于你正在训练的是什么类型的人工智能(例如,进行物体识别的人工智能可能比输出 Instagram 风格照片的人工智能更具变革性),但我希望这通常会倾向于人工智能培训师。
受版权保护作品的性质
这是一个创造性的工作,而不是一个事实性的工作。可能是靠着 AI 训练师。如果这些作品未发表而不是在 Instagram 上公开可见,它将进一步倾向于 AI 培训师。
所取部分的数量和实质
这个很复杂 从某种意义上说,您已经使用了整个工作来训练 AI。从另一种意义上说,你只了解了一些关于工作内容的一般信息。这也可能受到 AI 从作品中复制了多少的影响。可能倾向于人工智能培训师。
使用对潜在市场的影响
如果您使用 AI 来复制某人的艺术风格并以这种方式与他们竞争,那可能会对您不利。否则,用 Instagram 数据训练 AI 似乎不太可能影响原始图像的市场。可能倾向于人工智能培训师。
总体而言,这四个因素倾向于使用这些数据来训练 AI/ML 算法。
后记:还有一个相关的法律案例,但由于涉及到我的雇主,除了提供该链接之外,我不会对此发表评论。
除非正式聘用,否则每位律师都会给出的免责声明:这不构成正式的法律建议。
- 该数据是在公众视野的预期下发布的
查看数据是一种利用形式——获取可用于做出决定的信息,或者只是作为消遣(这里是人类对娱乐媒体的消费)。
如果任何观察者都可以输入该数据,那么您肯定可以使用该数据通过您的学习算法进行分析。
- 是研究
- 这不是为了利润
- 不存在侵权
出售该数据集可能构成侵权,因为自然人在任何存储介质(纸张、胶片、粘土片、机器指令的高级表示等)中创建新颖内容时固有的版权。
未经许可重新发布该数据肯定是侵权行为,但合理使用的情况除外。
https://en.wikipedia.org/wiki/Fair_use#File_sharing
与文件共享者、纪录片制作者、互联网出版商和其他专业社区相比,我们在 AI 社区中的地位要稳固得多,因为我们所做的只是出于科学研究的目的访问公共数据集。
互联网本身构成了一个数据库,² 可免费使用,防火墙除外。
我的感觉是,这些公共数据库(instagram 等)旨在供任何联网用户处理、分析和使用,就像数学公式一样。
互联网以及所有服务器和节点都是计算过程的一部分。编译成数据集只是该计算过程的扩展。当数据被放入数据包并传输到任何请求数据的系统时,该数据会在本地复制和镜像。
- 此内容均属于公共领域
他们可能没有知识共享声明,但是,我的感觉是,在这种情况下,只要您不以盈利为目的重新发布,您就没有侵权——没有经济损失,因此没有损害³
即使 Instagram 用户认为您侵权,他们也必须先聘请律师向您发送停止函。Instagram 也必须如此。
在这种可能的情况下,只需通过拒绝来服从或挑战。
- 社会学家使用这样的数据集进行研究,而我没有领导任何社会学家因研究 Facebook 而被起诉!
即使是社会学家对这些数据集的分析也需要某种形式的自动化分析,但我们可以指的是智能。
[1] 我必须进一步研究以确定这个 b/c 许多人肯定正在这样做或已经尝试过。但不是你的问题,所以不会回答。
[2] 网页和网站是一种数据库形式,通常对任何用户(人类或算法)具有开放读取访问权限。互联网是结构化数据元素(页面和站点)的结构化数据库。
[3] 我现在正在学习一些研究生 IT 课程,我的感觉是,学校给出的法律建议是要求引用,即使引用是模糊的,也不需要引用。它创建了很多不必要的对常识性改写的引用,但他们选择了严格的极小极大(偏执狂)。但这可能是 b/c 非传统程序正在教学生谷歌然后重新编写摘要以避免被当前的抄袭检查器检测到,从而成功地模拟研究,即使所有内容都是通用的。
NFL 明确表示“未经 NFL 明确同意不得复制”,但这是受到严格监管的广播/卫星/有线电视。
损害赔偿很难证明,而且这是一个非常昂贵的提议,不能保证成功。无论您如何分割它,这对 Instagram 来说都是一个失败的提议。(这些是法律的机制。)
我认为合法性在很大程度上取决于您如何访问数据,并且自动化这可能会使您违反 facebook/instagram 的数据使用条款。
这并不是说访问一组图像不会被视为合理使用,而是自动抓取它们可能违反了服务条款。
不过,最可能的后果是,Instagram 服务器上的一些聪明的东西会阻止你,事实上,当你尝试这样的事情时,确实会发生这种情况。