Pachyderm 和 Git 有什么区别?

数据挖掘 数据集 数据 大数据 工具 版本控制
2022-02-13 13:51:58

我了解到像 Pachyderm 版本控制数据这样的工具,但我看不出该工具与 Git 之间有任何区别。我从这篇文章中了解到:

  • 它将您的所有数据保存在一个可访问的中央位置
  • 当数据添加到数据集中或在数据集中更改时,它会更新所有依赖的数据集
  • 它可以运行任何转换,只要它在 Docker 中运行,并接受文件作为输入并输出文件作为结果
  • 它版本您的所有数据
  • 它处理修改的数据和新添加的数据部分
  • 当您测试新的转换管道时,它可以保留数据集的分支

Git似乎可以处理所有这些。也许数据的大小总是比代码大,然后为此目的创建了git-lfs 。

相比之下,Dolt提供了结合 SQL 和 Git 的不同方向。

Pachyderm 之类的工具如今是否适用于数据科学?

1个回答

Git 是为代码而设计的。

Pachyderm 专为机器学习资产而设计:数据、管道和笔记本。

您可以将机器学习资产放入 git。但是,git 会将机器学习资产视为代码原语。一个例子是 JSON 格式的笔记本。git 中的 JSON 很快变得难以管理。Pachyderm 将以笔记本特定的方式管理它们。