我正在使用数据分析软件 Orange 来分析带有标签的数据行.是我正在尝试建模的系统的中性状态,因此数据几乎总是被标记为. 这导致了极高的% 分类准确率,这是不真实的。几乎没有数据点实际上被标记为分别由神经网络。神经网络正在做合乎逻辑的事情:将所有内容展平以因为大多数情况下都会发生这种情况。我该如何修复这种情况?
单个标签的数据集比任何其他数据集都多
数据挖掘
机器学习
神经网络
数据集
数据清理
橙
2022-03-08 13:25:56
1个回答
有几种方法:
对代表性不足的班级进行过度抽样。问题:导致代表性不足的班级周围的界限非常有限(不平滑)
权衡来自代表性不足的班级的损失,而不是过度代表性的班级。如果您考虑一下,这在数学上与 1 做同样的事情
使用 SMOTE(这里)(我推荐这个)。基本上从连接最近的代表性不足的类的线中随机抽取额外的点,并相应地增加数据集的大小。smote 的 scikit contrib 实现
还有其他方法,但它们比 SMOTE 提供了非常小的改进