我是一个小型数据分析师团队的一员,该团队一直在努力优化我们用来跟踪复杂数据科学项目生命周期(几个月)中做出的假设和设计选择的流程——最终我们想要( i) 在出现错误时抓住(概念)错误 (ii) 确保始终清楚所产生结果的假设基础。
我们当前的流程依赖于代码生成和手动维护的 Excel 电子表格 - 该流程 (i) 耗时/导致文件过多,(ii) 引入了新的错误来源(将结果复制到电子表格中)和 (iii ) 不是动态的,即随着项目的发展不能轻易地适应。
虽然有大量的问题/答案集中在版本控制、可重现的研究和更广泛的项目组织上,但我们不是在寻找一套新的工具,而是一个解决非常具体问题的轻量级过程。
理想过程:
- 易于维护并尽可能自动化以减少错误
- 捕获所有设计选择和假设
- 一目了然反映任何变化的影响,即反映(变化)由变化引起的“关键指标”
- 将所有更改与相关代码文件版本链接
- 可以轻松地与其他分析师和首席研究员共享