监督学习
- 1) 人类根据输入和输出数据构建分类器
- 2) 该分类器使用训练数据集进行训练
- 3)该分类器使用测试数据集进行测试
- 4)如果输出令人满意则部署
用于“我知道如何对这些数据进行分类,我只需要你(分类器)对其进行排序”时使用。
方法要点:分类标签或产生实数
无监督学习
- 1) 人类根据输入数据构建算法
- 2)该算法使用测试数据集进行测试(算法在其中创建分类器)
- 3)如果分类器令人满意,则部署
用于“我不知道如何对这些数据进行分类,你(算法)可以为我创建分类器吗?”时使用。
方法要点:分类标签或预测 (PDF)
强化学习
- 1) 人类根据输入数据构建算法
- 2)该算法呈现出一种状态,该状态取决于用户通过算法采取的行动奖励或惩罚算法的输入数据,这种状态会随着时间的推移而持续
- 3)该算法从奖励/惩罚中学习并自我更新,这继续
- 4) 它始终在生产中,它需要学习真实数据才能呈现来自状态的动作
用于“我不知道如何对这些数据进行分类,你能对这些数据进行分类吗?如果正确我会给你奖励,否则我会惩罚你。”
这些做法的流程是这样吗,我听到很多关于他们所做的事情,但实用和示范性的信息却少得可怜!