如果算法本身通过反馈循环参与流程,如何生成数据?

数据挖掘 机器学习 数据
2021-10-03 06:48:52

我有一个算法,这将是一个相当简单的分类任务,具有一组特征和一个类输出,我想用机器学习算法来解决。

但是我对数据生成有问题和怀疑。我的算法用作输入的功能是由其他算法预先处理的,更重要的是,我想要更改的算法也有一个反馈循环。

基本上,我的算法越好,误报就越少。但是随着误报的减少,我可以处理越来越多的不平衡数据,这意味着训练算法变得更加困难。我可以故意降低算法的性能并生成数据,但是我不确定我得到的数据是否有意义,因为存在反馈循环。

对我来说,这似乎是一个先有鸡还是先有蛋的问题。

2个回答

这听起来确实是个坏主意,因为您事先选择了数据,因此可能会导致样本偏差。你看过异常检测方法吗?

你可能在做合奏吗?

通常,对于不平衡的数据集,最简单的方法是对数据进行过采样或欠采样。您要么在包含小样本的类上重复一些数据,要么在频率非常高的类上截断一些样本数据以制作平衡的数据集。

其他技术是根据每个类的频率对类使用权重。

另一种方法是建立一个模型,该模型可以像生成对抗网络中那样生成人工输入。