单个标签的数据集比任何其他数据集都多

数据挖掘 机器学习 神经网络 数据集 数据清理
2022-03-08 13:25:56

我正在使用数据分析软件 Orange 来分析带有标签的数据行{H,T,L}.T是我正在尝试建模的系统的中性状态,因此数据几乎总是被标记为T. 这导致了极高的97% 分类准确率,这是不真实的。几乎没有数据点H,L实际上被标记为H,L分别由神经网络。神经网络正在做合乎逻辑的事情:将所有内容展平以T因为大多数情况下都会发生这种情况。我该如何修复这种情况?

1个回答

有几种方法:

  1. 对代表性不足的班级进行过度抽样。问题:导致代表性不足的班级周围的界限非常有限(不平滑)

  2. 权衡来自代表性不足的班级的损失,而不是过度代表性的班级。如果您考虑一下,这在数学上与 1 做同样的事情

  3. 使用 SMOTE(这里)(我推荐这个)。基本上从连接最近的代表性不足的类的线中随机抽取额外的点,并相应地增加数据集的大小。smote 的 scikit contrib 实现

还有其他方法,但它们比 SMOTE 提供了非常小的改进