分层与随机抽样对生成分类训练数据的好处

机器算法验证 分类 交叉验证 随机森林 火车 分层
2022-02-05 00:49:57

我想知道在将原始数据集拆分为训练集和测试集进行分类时,使用分层抽样而不是随机抽样是否有任何/一些优势。

此外,分层抽样是否会比随机抽样向分类器引入更多的偏差?

我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器,在原始数据集的在分类器之前,还有一个合成样本生成步骤(SMOTE [1]),它平衡了类的大小。23

[1] Chawla,Nitesh V.,等人。SMOTE:合成少数过采样技术。 ” 人工智能研究杂志 16 (2002): 321-357。

1个回答

分层抽样旨在拆分数据集,以便每个拆分在某些方面都相似。

在分类设置中,通常选择确保训练集和测试集具有与完整集大致相同百分比的每个目标类的样本。

因此,如果数据集每个类别的数量很大,分层抽样与随机抽样几乎相同。但是,如果一个类在数据集中没有太多代表,因为您计划对少数类进行过采样,所以在您的数据集中可能就是这种情况,那么分层抽样可能会在训练和测试集中产生与随机抽样不同的目标类分布采样可能会产生。

请注意,分层抽样也可以设计为在下一个训练集和测试集中平均分配一些特征。例如,如果每个样本代表一个人,并且一个特征是年龄,那么在训练集和测试集中具有相同的年龄分布有时会很有用。

供参考: