数据挖掘 - Pachyderm 和 Git 有什么区别？ - 吾爱随笔录 - 问答

Pachyderm 和 Git 有什么区别？

数据挖掘数据集数据大数据工具版本控制

2022-02-13 13:51:58

我了解到像 Pachyderm 版本控制数据这样的工具，但我看不出该工具与 Git 之间有任何区别。我从这篇文章中了解到：

它将您的所有数据保存在一个可访问的中央位置
当数据添加到数据集中或在数据集中更改时，它会更新所有依赖的数据集
它可以运行任何转换，只要它在 Docker 中运行，并接受文件作为输入并输出文件作为结果
它版本您的所有数据
它处理修改的数据和新添加的数据部分
当您测试新的转换管道时，它可以保留数据集的分支

Git似乎可以处理所有这些。也许数据的大小总是比代码大，然后为此目的创建了git-lfs 。

相比之下，Dolt提供了结合 SQL 和 Git 的不同方向。

Pachyderm 之类的工具如今是否适用于数据科学？

1个回答

Git 是为代码而设计的。

Pachyderm 专为机器学习资产而设计：数据、管道和笔记本。

您可以将机器学习资产放入 git。但是，git 会将机器学习资产视为代码原语。一个例子是 JSON 格式的笔记本。git 中的 JSON 很快变得难以管理。Pachyderm 将以笔记本特定的方式管理它们。

其它你可能感兴趣的问题

上一篇如何解释我的逻辑回归结果？下一篇基于能量的建模与深度学习