关于分配不平衡类的权重

数据挖掘 阶级失衡 加权数据
2022-03-10 16:13:46

考虑一个将被分成训练和测试的数据集。该模型将使用训练集学习并使用未见过的测试集进行评估。现在数据集是不平衡的——它包含更多属于特定类别的示例。在这种情况下,平衡它的一种方法(除了这里提到的那些:训练,不平衡数据集分类的测试拆分)是通过基于样本分配权重。分配权重的正确方法是什么?我应该在整个数据集上分配权重,然后分成训练和测试吗?

1个回答

分配权重的正确方法是什么?我应该在整个数据集上分配权重,然后分成训练和测试吗?

不,您的测试集不必加权,也不应该加权,因为它应该反映数据的真实分布。因此,您应该首先拆分并仅对训练集中的实例加权,因为这是在训练阶段考虑这些权重。