如何权衡不平衡的软标签?

数据挖掘 阶级失衡 标签
2022-02-25 06:46:31

目标是 N 个类别之间的概率,我不希望它预测概率最高的类别,而是每个类别的“实际”概率。

例如:

|    | Class 1 | Class 2 | Class 3 |
------------------------------------
|  1 |     0.9 |    0.05 |    0.05 |
|  2 |     0.2 |     0.8 |       0 |
|  3 |     0.3 |     0.3 |     0.4 |
|  4 |     0.7 |       0 |     0.3 |
------------------------------------
|  + |     2.1 |    1.15 |    0.75 | <- correct this imbalance?
| >0 |       4 |       3 |       3 | <- or this one?

从概率总和高于其他类别的意义上说,某些类别具有“更多”样本。我是否必须通过损失函数中的权重来平衡这一点?还是我只像往常一样纠正 >0 的不平衡?

1个回答

如果您有不平衡的类(例如,如果您有 3 个类和 100 个类 1 的示例和 1000 个类 2 的示例和 5000 个类 3 的示例),那么是的,我会加权损失函数(我会使用加权分类交叉-熵)。

如果您的意思是某些类别的概率高于其他类别,那么这是正常和预期的行为。例如,如果你在做一个像 MNIST 一样的 10 类分类问题,并且你试图预测给定的图像,如果图像有一些圆形部分,那么它更有可能是 3 或 8,而不是 1 .