我应该重新洗牌我的数据吗?

机器算法验证 分类 造型 实验设计 交叉验证 引导程序
2022-03-21 11:27:23

我们有一套非常昂贵的生物样本。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练集(70%)和测试集(30%)。我们已经成功地创建了一个模型并将其应用于测试集,以发现性能“不是最优的”。实验者现在想要改进生物测试以创建更好的模型。如果我们无法获得新的样本,您是否建议我们重新洗牌以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门是一个有问题的部门)。

1个回答

由于您已经使用了保留样本,我想说您应该保留它并在相同的训练样本上构建新模型,以便所有模型都考虑特征之间的相同关系。此外,如果您执行特征选择,则必须在任何这些过滤阶段之前排除样本;也就是说,特征选择必须包含在交叉验证循环中。

值得注意的是,有比 0.67/0.33 分割更强大的方法用于模型选择,即 k 折交叉验证或留一法。参见例如 The Elements of Statistical Learning (§7.10, pp. 241-248), www.modelselection.orgArlot 和 Celisse对模型选择的交叉验证程序的调查(需要更高级的数学背景)。