场景- 我有没有标签的数据,但我可以创建一个函数来根据行为标记数据并部署模型,这样我就不必一直标记数据。这被认为是机器学习吗?
目标:根据大数据(数万亿行数据)或标签对high具有medium数量峰值的帐户进行分类。low
数据:我拥有的数据包括以下属性:账户、时间、日期、交易量。
方法:
创建一个名为的新特征列
spike,并创建一个 pandas 函数来识别大于 的峰值5。这是特征工程吗?接下来,我创建我的
label列并将其分类为lowmedium或high尖峰。接下来,我训练了一个机器学习分类器,并将其部署为在大数据中使用类似模式标记未来的帐户。
对这个过程的想法?这种方法对机器学习是否正确?