数据挖掘中“训练模型”步骤的目的是什么?

数据挖掘 机器学习 数据挖掘 训练 数据科学模型
2022-03-07 14:47:22

我的理解是,训练模型是使用训练数据在机器学习中完成的事情,这样模型就可以在提供新数据时预测值。

数据挖掘是在现有数据集中寻找模式的过程。那么数据挖掘中“训练模型”步骤的目的究竟是什么?

2个回答

监督方法无监督方法之间的机器学习 (ML) 有一个非常重要的区别

  • 监督学习包括用一些标记数据训练模型,以使最终模型能够预测一些新(未标记)数据的标签。这意味着任务是通过准确选择人们想要预测的内容来设计的。例如,预测文本作者的任务与预测文本主题完全不同,即使文本可能相同。
    • 注意:“标签”用于分类数据,在这种情况下,任务称为分类。相同的原理可以应用于数值,在这种情况下,这是一个回归任务。
  • 无监督学习包括检测数据中的模式,除了数据本身之外没有其他信息。这意味着没有特定的“标签”可以预测。很多时候,无监督学习是某种形式的聚类,即通过相似性对实例进行分组。数据挖掘方法通常属于这一类。通常,无需使用无监督方法进行单独的训练和测试步骤。但是,可能需要调整一些参数,或者有时需要使用一些带注释的数据来评估模型,因此这需要再次分离训练和测试。

数据挖掘训练的目的是寻找模式。

  • 如果您想使用 kmean 进行分割,训练意味着迭代地将数据分组到集群中,直到点不再更改集群。
  • 如果您进行购物篮分析,则意味着查看项目集并查看它们是否超过您的阈值指标,如果没有则丢弃它们。
  • 如果你训练一个自动编码器来表示潜在空间中的数据,这意味着使用梯度下降来设置权重,以便它们尽可能地压缩数据。

    在所有这些情况下,我们会说我们“训练模型”,因为它只是一个很好的思维框架,用于解决无监督和数据挖掘问题的迭代方法,即使可能没有测试或验证集来确保模型运行良好。