监督学习方法——创建我自己的标签

数据挖掘 scikit-学习 机器学习模型 监督学习 数据科学模型
2022-02-16 03:33:59

场景- 我有没有标签的数据,但我可以创建一个函数来根据行为标记数据并部署模型,这样我就不必一直标记数据。这被认为是机器学习吗?

目标:根据大数据(数万亿行数据)或标签对high具有medium数量峰值的帐户进行分类。low

数据:我拥有的数据包括以下属性:账户、时间、日期、交易量。

方法

  1. 创建一个名为的新特征列spike,并创建一个 pandas 函数来识别大于 的峰值5这是特征工程吗?

  2. 接下来,我创建我的label列并将其分类为low mediumhigh尖峰。

  3. 接下来,我训练了一个机器学习分类器,并将其部署为在大数据中使用类似模式标记未来的帐户。

对这个过程的想法?这种方法对机器学习是否正确?

2个回答

您描述的方法可能很好,但主要问题是自动标签是如何工作的。你说你可以“创建一个基于行为来标记数据的函数”:行为是什么?您是手动决定标签还是完全自动?如果它是完全自动化的且足够通用,可以适用于任何实例,那么您不需要任何 ML,因为您可以直接应用您的功能。另一方面,如果它特定于数据子集(或需要一定量的手动决策),那么它是有意义的,挑战将是这些特征是否具有足够的信息来预测来自不同子集的新实例的标签。ML 假设您的测试实例来自与训练集相同的分布。

创建一个名为“标签”的新功能列,该列根据 ID 数量激增的用户定义函数对帐户进行分类。这是特征工程吗?

如果它是您稍后将尝试使用新实例预测的类,则它不是特征工程。特征工程将选择特定的特征,例如,你可以有最小、最大和平均体积,或者离散时间等,而不是体积量。

据我了解,您正在尝试使用函数综合创建标签列。如果该函数足以在这种情况下正确标记数据,您也可以使用相同的函数来标记新数据。

在监督机器学习算法中,您希望通过根据给定特征预测函数(模型)来预测目标变量。在这里,您正在向恕我直言定义您自己的功能,您不需要 ML 模型来做到这一点。