我了解到像 Pachyderm 版本控制数据这样的工具,但我看不出该工具与 Git 之间有任何区别。我从这篇文章中了解到:
- 它将您的所有数据保存在一个可访问的中央位置
- 当数据添加到数据集中或在数据集中更改时,它会更新所有依赖的数据集
- 它可以运行任何转换,只要它在 Docker 中运行,并接受文件作为输入并输出文件作为结果
- 它版本您的所有数据
- 它处理修改的数据和新添加的数据部分
- 当您测试新的转换管道时,它可以保留数据集的分支
Git似乎可以处理所有这些。也许数据的大小总是比代码大,然后为此目的创建了git-lfs 。
相比之下,Dolt提供了结合 SQL 和 Git 的不同方向。
Pachyderm 之类的工具如今是否适用于数据科学?