我正在尝试构建一个集成模型来对具有不平衡数据的数据集进行分类,其中一些类只有几个样本。而且,由于这个数据集属性,当我用替换进行重新采样时,一些类被“丢弃”,即引导数据集中没有属于这些小型类的样本。
除了原始的数据集扩充/扩展之外,这个问题是否有任何解决方案?如果我只是更改引导过程以确保所有类都包含在引导数据集中怎么办?它会以某种方式影响学习过程吗?
还是您认为在这种情况下根本无法应用自举,应该首先增加每类的样本数量?
我正在尝试构建一个集成模型来对具有不平衡数据的数据集进行分类,其中一些类只有几个样本。而且,由于这个数据集属性,当我用替换进行重新采样时,一些类被“丢弃”,即引导数据集中没有属于这些小型类的样本。
除了原始的数据集扩充/扩展之外,这个问题是否有任何解决方案?如果我只是更改引导过程以确保所有类都包含在引导数据集中怎么办?它会以某种方式影响学习过程吗?
还是您认为在这种情况下根本无法应用自举,应该首先增加每类的样本数量?