首先,认为值得我说明复制和再现性的含义:
- 分析 A 的复制导致所有输入和过程的精确副本,这些输入和过程在分析 B 中提供并导致附带输出。
- 分析 A 的再现性导致输入、过程和输出在语义上是分析 A 附带的,而无法访问确切的输入和过程。
撇开复制给定构建(尤其是临时构建)的容易程度不谈,对我来说,如果计划好并且值得做的话,复制总是可能的。也就是说,我不清楚如何执行允许可重复性的数据科学工作流程。
我能想到的最重要的比较是生成供程序员使用的软件文档的文档生成器——尽管我看到的主要区别是理论上,如果两组分析运行“再现性文档生成器”,则文档应该匹配。
另一个问题是,虽然我了解了可重复性文档的概念,但我很难想象它以可用的形式会是什么样子,而不仅仅是复制分析的指南。
最后,这样做的全部目的是了解是否可以在构建堆栈时“烘焙”可再现性文档,而不是在构建堆栈之后。
那么,是否可以自动生成可重复性文档,如果可以,它会是什么样子?
更新:请注意,这是这个问题的第二稿,克里斯托弗·劳登( Christopher Louden)很友好地让我在意识到第一稿可能不清楚之后编辑了这个问题。谢谢!