我希望我的机器学习算法能够学习两个类之间的区别,实际上picture of X还是picture of something else.
我的样本数据是:
- 500
pictures of X(我知道它很低,不幸的是我对此无能为力) - 1,000,000
pictures of something else
问题:我应该与所有 1,000,000 人一起进行培训pictures of something else吗?
还是这种不平衡会产生负面影响?例如,它会“淹没”其他数据吗?
笔记:
- 计算能力和时间不是问题。
- 在现实世界中,
pictures of X占数据的 5% 到 10%,所以我不认为我有类不平衡的问题。 - 我觉得分类很简单,机器学习大概能很快理解。
- 我可以接受合理数量的错误分类。
- 如果这很重要,我计划将 Keras 和 Tensorflow 与 Flatten/Dense relu/Dense softmax/AdamOptimizer/sparse_categorical_crossentropy 一起使用。