具有不平衡类的引导数据集

机器算法验证 引导程序 不平衡类 集成学习 分层
2022-03-16 21:51:13

我正在尝试构建一个集成模型来对具有不平衡数据的数据集进行分类,其中一些类只有几个样本。而且,由于这个数据集属性,当我用替换进行重新采样时,一些类被“丢弃”,即引导数据集中没有属于这些小型类的样本。

除了原始的数据集扩充/扩展之外,这个问题是否有任何解决方案?如果我只是更改引导过程以确保所有类都包含在引导数据集中怎么办?它会以某种方式影响学习过程吗?

还是您认为在这种情况下根本无法应用自举,应该首先增加每类的样本数量?

1个回答

您可以尝试的一种方法是“分层”引导程序的一种形式。您可以单独从每个组中抽样,甚至不按比例抽样。这样做将导致估计每个组的经验分布,就像 bootstrap 所做的那样。然后,要获得您要计算的统计数据,您必须按其使用的过采样/欠采样的类别对每个样本进行加权。

这是一般的想法。似乎有一篇论文解决了这个确切的问题。可能值得一试。

如果您可以使用原始比例对每个班级进行抽样,也许这个问题也可能对您有所帮助。