不平衡数据集:如何处理测试数据?

数据挖掘 阶级失衡 采样
2021-10-15 23:42:47

我计划使用多种方法来解决训练集上的不平衡数据集问题。但是我找不到任何描述他们如何处理测试数据集的论文?我假设他们只是在原始数据集上进行了测试而没有任何调整?我需要在原始不平衡比率的测试集上调整阈值吗?


更新。感谢大家的回复!

我发现一篇论文讨论了我们应该如何调整后验概率和阈值。 使用欠采样校准不平衡分类的概率

但是,我也相信在实践中我们可以直接拟合测试集。

2个回答

正如其他人所回答的那样,您应该使用测试集而不做任何更改。但是了解平均准确率和整体准确率之间的差异非常重要。在总体准确度中,您找到平均准确度(正确预测的样本数/样本总数),您可以找到每个类别的总体准确度,然后找到这些总体准确度的平均值。当您知道您正在使用不平衡的数据库时,所有类都很重要,您应该使用平均准确度

要理解这意味着什么:假设您有两个类, A 类和 B 类,比率是 90 比 10 。如果您为训练和测试随机抽样,那么测试集中的比率仍然是 90:10。如果您的模型非常有偏差,即预测所有样本为 A 类,则:总体准确度 = 90% 平均准确度 = 50%(A 类为 100% + B 类为 0%)/2

整体准确率确实很高,但并不能反映模型的实际质量。平均准确度让您更好地了解质量

平衡训练集 + 验证平衡方法的想法是为了能够概括您的模型,该模型将在看不见且不平衡的测试集中更好地区分(在分类分配中)来自少数类的样本。意思是,该模型已经调整了分类边界以考虑少数类代表性不足,您不应该为此调整测试集。

最后,您应该确保两个集合都是随机选择的,因为每个特征的示例的表示比率大致相同