日志:机器学习方法

数据挖掘 机器学习 算法
2021-09-26 08:49:24

过去,在尝试不同的机器学习算法来解决问题时,我习惯于在笔记本上编写淹没方法集,保留特征、特征预处理、归一化、算法、算法参数等细节……因此,建立一个手写的日志。

但是,目前我担心使用“更专业”的工具,以便我可以保留更多细节,甚至与其他团队成员分享,他们也能够标记他们的方法。

这将是一个很好的自动化和协作工具,可以跟踪完成的工作,考虑以下细节:特性、算法、算法参数、数据预处理、数据、指标……例如协作 Google Drive 电子表格之外。

你是如何解决这个问题的?您如何跟踪已完成的工作?你的日志工具是什么?

非常感谢您提前。

3个回答

你是如何解决这个问题的?您如何跟踪已完成的工作?你的日志工具是什么?

这可能不是最好的方法。但是,我的团队就是这样做的。我们相信,为了完成一个端到端的数据科学实验,正确的良心是非常重要的。因此,我们在讨论和会议中使用Slack

除了它们之外,我们还有 Rmd (R markdown) 文件,用于记录规划和分析部分。

看看这个,看起来正是你需要的

你是如何解决这个问题的?您如何跟踪已完成的工作?你的日志工具是什么?

对于我的学士论文( write-math.com ),我编写了自己的小工具包来快速完成不同的模型/预处理步骤。每个实验都有一个配置文件(请参阅hwr-experiments 存储库)。例如:

data-source: feature-files/baseline-3-points
training: '{{nntoolkit}} train --epochs 1000 --learning-rate 0.1 --momentum 0.1 --print-errors --hook=''!detl
    test {{testing}},err=testresult_%e.txt'' {{training}} {{validation}}
    {{testing}} < {{src_model}} > {{target_model}} 2>> {{target_model}}.log'
model:
    type: mlp
    topology: 24:500:369

存储训练好的模型;获得评估结果非常快(例如准确性,混淆矩阵)。