我的“机器学习”任务是将良性互联网流量与恶意流量分开。在现实世界的场景中,大多数(比如 90% 或更多)互联网流量是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我遇到了一两篇研究论文(在我的工作领域),它们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量的实例数量相等。
一般来说,如果我正在构建机器学习模型,我应该选择代表现实世界问题的数据集,还是更适合构建模型的平衡数据集(因为某些分类器在类不平衡时表现不佳,或者由于我不知道的其他原因)?
有人可以更清楚地说明这两种选择的利弊以及如何决定选择哪一种吗?