是否可以自动生成再现性文档?

数据挖掘 加工
2022-02-09 17:59:23

首先,认为值得我说明复制和再现性的含义:

  • 分析 A 的复制导致所有输入和过程的精确副本,这些输入和过程在分析 B 中提供并导致附带输出。
  • 分析 A 的再现性导致输入、过程和输出在语义上是分析 A 附带的,而无法访问确切的输入和过程。

撇开复制给定构建(尤其是临时构建)的容易程度不谈,对我来说,如果计划好并且值得做的话,复制总是可能的。也就是说,我不清楚如何执行允许可重复性的数据科学工作流程。

我能想到的最重要的比较是生成供程序员使用的软件文档的文档生成器——尽管我看到的主要区别是理论上,如果两组分析运行“再现性文档生成器”,则文档应该匹配。

另一个问题是,虽然我了解了可重复性文档的概念,但我很难想象它以可用的形式会是什么样子,而不仅仅是复制分析的指南。

最后,这样做的全部目的是了解是否可以在构建堆栈时“烘焙”可再现性文档,而不是在构建堆栈之后。

那么,是否可以自动生成可重复性文档,如果可以,它会是什么样子?


更新:请注意,这是这个问题的第二稿,克里斯托弗·劳登( Christopher Louden)很友好地让我在意识到第一稿可能不清楚之后编辑了这个问题。谢谢!

1个回答

为了在不只是复制的情况下可重现,您需要使用与以前相同的技术用新数据重做实验。工作流程不如所使用的技术重要。以相同的方式采样数据,使用相同类型的模型。只要模型和数据操作相同,您是否从一种语言切换到另一种语言都没有关系。

这种类型的复制将表明,您在第一个实验中获得的结果与之前相比不太可能是侥幸。