我正在为一个技术客户做一个咨询项目,并且对展示高级分析工作流程的最佳方式是什么感到摸不着头脑。将向小组展示的内容将集中在结果上,但在这种特殊情况下,有必要展示幕后过程的视觉效果。
具体来说,我需要展示以下内容:
1) 一些原始数据文件用作清理脚本的输入,该脚本执行插补并根据某些标准添加/删除变量。有些是在外部文件上添加的。
2) 清理后的数据被传递给一个脚本,该脚本根据剩余的粒度和感兴趣的子集创建可变子集。这会输出许多清理过的数据集。
3) 新的数据集被传递到外部计算集群,它在每个数据集上建立模型,并输出一个带有性能指标的表。
4) 表现最好的模型在本地重新运行并对观察结果进行评分。
目前,我倾向于 UML,因为专家组可能熟悉它并欣赏它的使用。不过,我想知道数据科学中是否存在任何方便的工作流图表标准。
一些观点:
历史上,信息系统在概念和硬件级别的图表中已经很好地建立了 ERD 和各种数据流图。通过流程图和 UML 图,软件开发也非常重视这一点。业务分析依赖 BPMN 来显示业务流程。
然而,当试图在数据科学领域找到一个图表标准时,我所能找到的只是对我们自己所做的许多漂亮而清晰的可视化结果的引用。我们当然不会回避可视化的标准方法(通常是有充分理由的)。那么,有没有像其他领域那样记录我们自己的工作流程的方法?