我的一类样本有限,另一类样本无限。需要平衡吗?

数据挖掘 机器学习 采样
2022-02-16 04:04:24

我希望我的机器学习算法能够学习两个类之间的区别,实际上picture of X还是picture of something else.

我的样本数据是:

  • 500 pictures of X(我知道它很低,不幸的是我对此无能为力)
  • 1,000,000pictures of something else

问题:我应该与所有 1,000,000 人一起进行培训pictures of something else吗?
还是这种不平衡会产生负面影响?例如,它会“淹没”其他数据吗?

笔记:

  • 计算能力和时间不是问题。
  • 在现实世界中,pictures of X占数据的 5% 到 10%,所以我不认为我有类不平衡的问题。
  • 我觉得分类很简单,机器学习大概能很快理解。
  • 我可以接受合理数量的错误分类。
  • 如果这很重要,我计划将 Keras 和 Tensorflow 与 Flatten/Dense relu/Dense softmax/AdamOptimizer/sparse_categorical_crossentropy 一起使用。
1个回答

是的,使用所有数据进行训练。

为了调整不平衡的数据大小,您希望少数类比多数类X重要您可以 (1) 使用加权交叉熵损失,例如tf.nn.weighted_cross_entropy_with_logits,或 (2) 在将不同训练示例的损失相加时,对它们进行加权与该标签的大小成反比,或同时使用两者。

这是一个很好的解释