数据挖掘 - 单个标签的数据集比任何其他数据集都多 - 吾爱随笔录

单个标签的数据集比任何其他数据集都多

数据挖掘机器学习神经网络数据集数据清理橙

2022-03-08 13:25:56

我正在使用数据分析软件 Orange 来分析带有标签的数据行 $\{H, T,L\}$ . $T$ 是我正在尝试建模的系统的中性状态，因此数据几乎总是被标记为 $T$ . 这导致了极高的 $97$ % 分类准确率，这是不真实的。几乎没有数据点 $H, L$ 实际上被标记为 $H, L$ 分别由神经网络。神经网络正在做合乎逻辑的事情：将所有内容展平以 $T$ 因为大多数情况下都会发生这种情况。我该如何修复这种情况？

1个回答

有几种方法：

对代表性不足的班级进行过度抽样。问题：导致代表性不足的班级周围的界限非常有限（不平滑）
权衡来自代表性不足的班级的损失，而不是过度代表性的班级。如果您考虑一下，这在数学上与 1 做同样的事情
使用 SMOTE（这里）（我推荐这个）。基本上从连接最近的代表性不足的类的线中随机抽取额外的点，并相应地增加数据集的大小。smote 的 scikit contrib 实现

还有其他方法，但它们比 SMOTE 提供了非常小的改进

其它你可能感兴趣的问题

上一篇我们可以使用神经网络在两个数字之间执行算术运算吗？下一篇如何将保存的文件从 google colab 上传到 kaggle 或 github 等网站？