我使用 Python 在我的不平衡数据集上运行随机森林模型(目标变量是二进制类)。在拆分训练和测试数据集时,我纠结于是否使用分层抽样(如代码所示)。到目前为止,我在我的项目中观察到分层案例会导致更高的模型性能。但我想如果我将使用我的模型来预测新案例,这些新案例的目标类分布与我当前的数据集很可能不同。所以我倾向于放松这个约束并使用未分层的拆分。任何人都可以建议澄清这一点吗?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)