我已经学习了很多关于机器学习的教程,但是在每一个教程中,它们都采用了不同的策略,所以这让我很困惑。我想知道所涉及的操作是什么以及这些操作的正确顺序是什么。
截至目前,我认为流程和排序是->
- 获取数据
- 删除重复项
- 查找缺失值和异常值
- 创建新功能
- 处理缺失值和异常值
- 建立基础模型
- 找到要选择的最佳功能
- 尝试并找到不同的模型
- 选择最佳型号
- 模型的超调
如果缺少某些内容并更正顺序,请务必提供。
我已经学习了很多关于机器学习的教程,但是在每一个教程中,它们都采用了不同的策略,所以这让我很困惑。我想知道所涉及的操作是什么以及这些操作的正确顺序是什么。
截至目前,我认为流程和排序是->
如果缺少某些内容并更正顺序,请务必提供。
是的,从不同的导师那里在线学习可以导致不同的策略。但这表明流量取决于数据的类型。并非每次您都必须创建特征或处理异常值。
对于图像,您可以通过应用不同的方法和过滤器来减少噪音,对于文本,您可以删除停用词、标点符号等。所以这取决于数据及其数量。为我进行的一般方法如下
这就是我在行业中看到我周围的每个人都在工作的方式,我也遵循同样的方式。对我有帮助,但这是一般性的,在这里你有很多要根据定义和任务进行更改。
以下步骤与其他建议类似:-