数据挖掘 - 我的一类样本有限，另一类样本无限。需要平衡吗？ - 吾爱随笔录

我希望我的机器学习算法能够学习两个类之间的区别，实际上picture of X还是picture of something else.

我的样本数据是：

问题：我应该与所有 1,000,000 人一起进行培训pictures of something else吗？
还是这种不平衡会产生负面影响？例如，它会“淹没”其他数据吗？

笔记：

计算能力和时间不是问题。
在现实世界中，pictures of X占数据的 5% 到 10%，所以我不认为我有类不平衡的问题。
我觉得分类很简单，机器学习大概能很快理解。
我可以接受合理数量的错误分类。
如果这很重要，我计划将 Keras 和 Tensorflow 与 Flatten/Dense relu/Dense softmax/AdamOptimizer/sparse_categorical_crossentropy 一起使用。