我经常遇到的问题之一是数据来源不佳。
当我做研究时,我会不断地修改我的代码并重新运行实验。每次我都面临一些问题,例如:我是否将旧结果保存在某个地方,以防万一?我应该在输出文件名中包含参数设置还是将它们保存在不同的文件中?我如何知道使用哪个版本的脚本来生成结果?
我最近偶然发现了Sumatra,这是一个非常轻量级的 Python 包,可以捕获可用于跟踪数据来源的代码、数据、环境 (CDE) 信息。我喜欢它既可以从命令行也可以从我的 Python 脚本中使用并且不需要 GUI 的事实。缺点是该项目似乎不活跃,也许那里有更好的东西。
我的问题是:对于我的研究,什么是好的轻量级数据来源解决方案?我正在通过 SSH 在远程服务器上的终端中主要使用 Python 编写小型项目,因此命令行解决方案对我来说是完美的。
编辑 2019:苏门答腊项目似乎不活跃,而其他更成熟的项目也出现了。DVC看起来很有前途,我已经联系了它的一些作者,他们已经证明非常有帮助和支持。