数据集管理:有哪些策略/解决方案可以有效地存储数据集及其版本?

数据挖掘 数据集 数据 版本控制
2022-03-02 07:18:13

问题:我有 N 个分类模型(独立),对于这 N 个模型中的每一个,我都有不同的版本(例如: V 0, V 1,..., V final_production,V experimental)。我正在寻找一种将我的数据集有效地存储在云上的方法(用于减少)。

注意:我们在这里不是在谈论 BigData。

当前解决方案:创建了一个私有 GitHub 存储库。制作了 N 个目录并在里面,将不同的数据集版本推送为不同的文件。

有没有更好的解决方案(因为我觉得 VCS 对这个问题来说太过分了)?

1个回答

我将现有的目录结构与Git LFS一起使用,它运行良好。

以下是我通过使用 Git LFS 而不是替代解决方案获得的优势。

  • 它节省了空间:因为 Git LFS 使用指针管理我的数据集文件(100MB 到 1GB),并且只在本地内存中保留最小值。

  • 它与启用了 git 的存储库无缝协作:我计划使用一些特定于我的数据集的存储解决方案(如 Amazon S3)。但是我必须付出额外的努力来管理多个版本并保持我的数据集文件同步。