如何跟踪假设/设计选择并避免复杂项目中的错误

数据挖掘 r
2021-09-21 17:45:25

我是一个小型数据分析师团队的一员,该团队一直在努力优化我们用来跟踪复杂数据科学项目生命周期(几个月)中做出的假设和设计选择的流程——最终我们想要( i) 在出现错误时抓住(概念)错误 (ii) 确保始终清楚所产生结果的假设基础。

我们当前的流程依赖于代码生成和手动维护的 Excel 电子表格 - 该流程 (i) 耗时/导致文件过多,(ii) 引入了新的错误来源(将结果复制到电子表格中)和 (iii ) 不是动态的,即随着项目的发展不能轻易地适应。

虽然有大量的问题/答案集中在版本控制、可重现的研究和更广泛的项目组织上,但我们不是在寻找一套新的工具,而是一个解决非常具体问题的轻量级过程。

理想过程:

  • 易于维护并尽可能自动化以减少错误
  • 捕获所有设计选择和假设
  • 一目了然反映任何变化的影响,即反映(变化)由变化引起的“关键指标”
  • 将所有更改与相关代码文件版本链接
  • 可以轻松地与其他分析师和首席研究员共享
3个回答

我会选择参数化的 Rmarkdown 报告我认为它可以满足您的所有需求,它易于使用和维护,提供了极大的灵活性,您可以嵌入各种东西并提供不同的输出格式。

如果它支持您的编程语言的内核,另一种选择是使用 Jupyter 笔记本。它允许正常的降价、LaTeX、Web 文档中显示的输出和交互性。如果它托管在普通服务器或 HTML 转储上以便于共享,您可以共享真实的、可运行的文档。

你应该看看开放科学框架:这是一个介绍性的 YouTube 视频这个开源项目解决了你所有的问题。

结构化项目:

将所有文件、数据和协议保存在一个集中位置。不再需要拖网电子邮件来查找文件或争先恐后地从丢失的数据中恢复。安全云

控制访问:

您可以控制项目的哪些部分是公开的或私有的,从而可以轻松地与全球社区或您的团队协作。项目级权限

尊重您的工作流程:

将您最喜欢的第三方服务直接连接到开放科学框架。第三方集成