轻量级数据来源工具

数据挖掘 工具
2021-09-19 15:43:02

我经常遇到的问题之一是数据来源不佳。

当我做研究时,我会不断地修改我的代码并重新运行实验。每次我都面临一些问题,例如:我是否将旧结果保存在某个地方,以防万一?我应该在输出文件名中包含参数设置还是将它们保存在不同的文件中?我如何知道使用哪个版本的脚本来生成结果?

我最近偶然发现了Sumatra,这是一个非常轻量级的 Python 包,可以捕获可用于跟踪数据来源的代码、数据、环境 (CDE) 信息。我喜欢它既可以从命令行也可以从我的 Python 脚本中使用并且不需要 GUI 的事实。缺点是该项目似乎不活跃,也许那里有更好的东西。

我的问题是:对于我的研究,什么是好的轻量级数据来源解决方案?我正在通过 SSH 在远程服务器上的终端中主要使用 Python 编写小型项目,因此命令行解决方案对我来说是完美的。

编辑 2019:苏门答腊项目似乎不活跃,而其他更成熟的项目也出现了。DVC看起来很有前途,我已经联系了它的一些作者,他们已经证明非常有帮助和支持。

1个回答

是的,您应该在对代码进行主要修改之前保存结果文件。磁盘空间很便宜,因此除非您的结果集多产,否则您不太可能遇到问题。我建议使用包含生成时间戳的文件夹名称来存储旧结果集。

就代码的时间截图而言,使用 github(或其他一些代码存储库工具)尽可能简单,可以保存版本信息,允许协作,并且是备份和版本代码的全方位好方法。

将这两件事结合起来,您将有效地将结果集映射到特定版本的代码。