从 YouTube 视频中获取训练数据是否合法?

数据挖掘 机器学习 神经网络 数据挖掘 数据集
2021-09-19 11:03:29

至少在我不以我的名义“出售”视频的情况下,抓取 YouTube 视频来训练神经网络是否合法?

如果不是,是否有获得上述许可的程序?我在学术界,需要大量的视频数据,YouTube 将是其中的完美来源。

注意:我不知道在哪里发布这个问题,因为它不是技术性的。我在这里发布它只是因为我相信这里有人会知道一点或两点。希望有任何关于社区的建议,这个问题可能有更好的机会。法律呢?

1个回答

这将取决于视频本身的权利,尽管 youtube 的服务条款可能无论如何都不会同意。

但是你有YouTube 8M 数据集,由谷歌发布用于研究目的。

YouTube-8M 是一个大规模的标记视频数据集,包含数百万个 YouTube 视频 ID 和来自 4700 多个视觉实体的不同词汇表的相关标签。它具有来自数十亿帧和音频片段的预先计算的最先进的视听功能,旨在适合单个硬盘。这使得通过在一台机器上训练一个基线视频模型,在不到一天的时间内开始使用这个数据集成为可能!同时,数据集的规模和多样性可以深入探索复杂的视听模型,即使以分布式方式训练也可能需要数周时间。

编辑:Facebook 和 MIT 刚刚发布了SLAC(即将发布的数据集,以及用于迁移学习的预训练模型)。

该项目提出了一个新的视频数据集,名为 SLAC(稀疏标记的动作),用于动作识别和定位。它包含超过 52 万个未修剪的视频和 175 万个剪辑注释,涵盖 200 个动作类别。