可重用参数扫描包装器

数据挖掘 工具
2022-02-18 07:47:49

在我的大多数项目中,我提出了模型并希望可视化某些属性如何x作为参数子集的函数而变化p1,p2, .. ETC。

所以我经常会得到看起来像这样的“参数扫描”的数字

示例图片

这些对于解释模型/流程/数据集非常有帮助。

问题是:我投入了大量的工作来生成生成这些数字所需的数据其中大部分浪费在管道本身上。我经常需要耦合 2 到 10 个不匹配的程序,处理数千个中间文件,一路跟踪文件名中的参数等等。这很快导致 bash 脚本不堪重负。

考虑到参数扫描,是否有任何原则性的方法来管理不匹配程序的管道?说一个 python 模块,用户可以在其中声明包装器以及它们如何交互。那么用户只是在参数空间的每个点上“启动管道”并以易于使用的格式数组恢复数据?

1个回答

这听起来像是实验跟踪。ML flow是一个用于实验跟踪的 Python 包。