我正在寻找一种工具来跟踪机器学习中的几个实验/迭代的结果。
训练模型可能需要数天/数周,因此跟踪其性能并能够轻松复制结果并回滚到以前的版本至关重要。我正在寻找一种工具,它可以像 git 一样使过程变得简单和流线化,用于版本控制。
有用的功能是:
- 具有允许商业应用的许可证的开源
- 自托管 [所有信息都应保存在我们拥有的计算机上]
- 对 python 友好(理想情况下,也对 tensorflow 友好)
- 可以存储超参数值以及对特定数据集的引用(后者可用于跟踪硬负挖掘的效果等)
- 集群友好
- 包括基本绘图(可视化学习曲线很有用)
- 对多个数据集进行自动测试
- 用户跟踪 [如 git 中的“责备”]