准备数据集少数类与多数类

数据挖掘 机器学习 分类 阶级失衡 二进制
2022-02-17 08:26:53

我目前正在对情绪预测进行二元分类。目前,我将多数类(约 90% 的数据)作为我的正类(标记为 1),将少数类(约 10% 的数据)作为我的负类(标记为 0)。我想在这个实验中最大限度地检测负面情绪,因此我想最大限度地提高我的少数类的精度(和召回率)。

然而,在信用卡欺诈检测、癌症检测等许多类似的数据集中(就少数类检测的优先级而言),通常将少数类设置为正类,将多数类设置为负类。

我的问题是:将少数类设置为与训练模型的性能或影响交叉熵等损失函数有关的正标签或负标签是否重要?

1个回答

我的问题是:将少数类设置为与训练模型的性能或影响交叉熵等损失函数有关的正标签或负标签是否重要?

不,它没有。

然而,在二元分类中,习惯上将“正面”称为主要关注类别,因此当/如果您向其他人展示您的结果时,请注意明确哪个是正面/负面。

还要注意,精度和召回率通常是针对所谓的正类计算的,所以不要无意中使用多数类的结果而不是你感兴趣的结果。