机器学习中操作的步骤和正确顺序是什么?[从获取数据到优化模型]

数据挖掘 机器学习 特征选择 预处理 数据科学模型 模型选择
2022-02-15 16:16:39

我已经学习了很多关于机器学习的教程,但是在每一个教程中,它们都采用了不同的策略,所以这让我很困惑。我想知道所涉及的操作是什么以及这些操作的正确顺序是什么。

截至目前,我认为流程和排序是->

  1. 获取数据
  2. 删除重复项
  3. 查找缺失值和异常值
  4. 创建新功能
  5. 处理缺失值和异常值
  6. 建立基础模型
  7. 找到要选择的最佳功能
  8. 尝试并找到不同的模型
  9. 选择最佳型号
  10. 模型的超调

如果缺少某些内容并更正顺序,请务必提供。

2个回答

是的,从不同的导师那里在线学习可以导致不同的策略。但这表明流量取决于数据的类型。并非每次您都必须创建特征或处理异常值。

对于图像,您可以通过应用不同的方法和过滤器来减少噪音,对于文本,您可以删除停用词、标点符号等。所以这取决于数据及其数量。为我进行的一般方法如下

  1. 了解定义并获得领域知识
  2. 收集资料
  3. 对其进行预处理(包括去除噪声、应用转换、修剪数据等)
  4. 必要时进行特征选择
  5. 做数据可视化
  6. 用样本数据做不同的模型实验。
  7. 修复 2 3 模型的案例
  8. 使用真实数据进行训练
  9. 使用不同的矩阵进行评估(取决于数据和定义)
  10. 使用 API/Direct 使模型可访问客户端

这就是我在行业中看到我周围的每个人都在工作的方式,我也遵循同样的方式。对我有帮助,但这是一般性的,在这里你有很多要根据定义和任务进行更改。

以下步骤与其他建议类似:-

  1. 理解问题陈述,将其与数据联系起来。
  2. 从文件中读取数据(CSV 或给出任何格式)并找出其中的列数和行数。
  3. 识别具有空值的特征,因为我们需要先处理它们。一旦确定了数据中的空值,找出如何修复空值并修复空值的措施。
  4. 对测试数据也执行相同的操作(第 3 步)(如果您有 2 个单独的训练和测试数据集)。
  5. 现在,无论您有数据类型不是整数或浮点数的列,都必须将该数据转换为数字类型。
  6. 之后,您需要选择将用于模型训练的特征。
  7. 在这里,您还可以根据您的方法和要求创建新功能。
  8. 之后,我们就可以开始训练模型了。所以我们为它选择了几个模型(比如2-3)
  9. 训练完成后,我们预测测试数据的值并查看我们的模型执行的准确度(分类问题的准确度)。
  10. 现在,这种准确性将决定特征和模型选择需要进行哪些更改。
  11. 对于功能,您可以检查功能的重要性并决定删除/包含新功能。
  12. 此外,为了提高性能/准确性,我们可以对参数进行超参数调整并重复步骤 8-10