在处理类别不平衡的情况下,设置不同的阈值是否有助于提高模型性能?

数据挖掘 机器学习 分类
2022-02-04 18:56:47

在存在类不平衡的二元分类问题中,在应用欠采样/过采样或 SMOTE 技术之后,如果我们使两个类完全平衡,是否仍然约定使用 0.5 阈值?还是我们仍然应该根据我们正在尝试优化的内容来更改阈值?

2个回答

如果更改阈值可以提高模型的性能,则最好更改阈值并使用最佳值。平衡数据集并不意味着您不能更改判别阈值。此外,在某些情况下,当数据最初是平衡的时,更改阈值可能非常有用,这是一个非常聪明的举措。

好与坏的比率应为 50-50,这并不是硬性规定。而是取决于您的场景,例如您有 70% 的商品和 30% 的坏品,这个比例是不错的,您的模型应该能够很好地理解数据中的模式。如果你只有 5% 到 10% 的不良率,并且你想提高模型性能,那么就需要过采样/欠采样,并且使 60-40、70-30、65-35、55-45 是不错的比率。

如果您担心过采样后每个变量的分布,那么也可以看看这篇文章