很难找到端到端机器学习过程的概要。作为一个完全的初学者,缺乏信息是令人沮丧的,所以我决定尝试通过查看很多教程来拼凑我自己的过程,这些教程都以略有不同的方式进行。
我希望有一个标准的流程,一旦我适应了它,我可以选择偏离。我想听听你们行业支柱的一些意见。对于初学者来说,这是一个很好的例程吗?
- 获取数据
- 清洁数据
- 将数据拆分为训练和测试数据 ~(80/20)
- 另外,对于训练集和测试集:
- 规范化数据(连续特征):
- 标准化(除以标准偏差)
- 中心(减去平均值)
- 估算缺失值
- 特征工程
- 编码分类变量:
- 整数编码
- 一种热编码
- 目标编码
- 证据的重量
- 规范化数据(连续特征):
- 如果分类问题,将标签与测试集分开。放在一边。
- 选择几个模型。
- 对于每个模型,使用 k 折交叉验证:
- 在“训练集”上训练基础模型。
- 在“验证集”上调整和测试超参数
- 保存最佳分数和参数
比较每个模型在从未接触过的测试数据上的最终分数
选择得分最高的模型。
编辑:感谢您的大量回复。很多时候,我的问题只得到一个答案或根本没有答案。我很感激花时间帮助初学者。
我已经编辑了上面的步骤以反映下面的精彩答案。我希望这可以帮助其他地方的另一个初学者。