我从事 ML 已经有一段时间了,我有一个关于班级不平衡问题的想法,这让我很困扰。
在我们有不平衡数据集的问题(一个类比另一个类更频繁)的问题中,我们有一个使用类不平衡技术来缓解它的整个领域。就像重采样一样,在训练时在 ML 算法中按类大小添加类权重,生成少数类 (SMOTE) 的合成实例等。
但我的问题是我们为训练数据做了所有这些。现实世界的测试数据是不平衡的。不应该修改训练数据以使其平衡,以便它仍然模仿现实世界的数据吗?
是的,我知道上述技术如何提供帮助。我的观点是,如果现实世界的数据将看到更少的少数族裔,这会使数据产生偏差。在训练中,我们通过让算法看到的数据比它在现实生活中看到的更多,从而使数据产生偏差。
这里的正确方法是什么?