留一交叉验证和增强回归树

机器算法验证 回归 机器学习 交叉验证
2022-04-08 21:08:08

我的同事最近提出了一项工作,他们在小数据集上校准增强回归树(BRT)模型(n=30)。他们使用 R2、RMSPE 和 RPD 指数使用留一法交叉验证 (LOOCV) 验证模型。他们还提供了通过在完整数据集上训练和验证模型计算得出的这些指数。通过 LOOCV 获得的 R2、RMSPE 和 RPD 值几乎严格等于在训练数据集上验证时获得的 R2、RMSPE 和 RPD 值。

我的问题是:

  • BRT 上的 LOOCV 是否会出现这样的结果?

  • 这是因为 BRT 对异常值(和单个个体?)相对不敏感,在 LOOCV 期间排除一个个体不会产生影响,提供几乎相似的校准模型,在排除的个体上具有相同的性能指标?

  • 在这种情况下,与重复的 k 倍 CV 相比,BRT 的 LOOCV 是否有意义k<n?

先感谢您

1个回答

没有数据很难判断,但集合可能“过于同质”而无法使 LOO 工作——想象你有一个集合X然后复制所有对象以制作一组Xd-- 虽然 BRT 通常在其列车上具有非常好的准确性,但很明显 LOO 开启Xd可能会给测试在火车上相同的结果。

因此,如果准确度好的话,我什至会尝试重新采样 CV(假设在 10 折中的每一个上,您可以通过对未放置在火车中的对象进行替换和测试来采样对象,从而使火车的大小与整套相同——这应该在这个数据上以大约 1:2 的比例吐出它们来验证这个结果。

编辑:更精确的重采样 CV 算法

给定一个数据集N对象和M属性:

  1. 训练集是随机选择的N带有替换的原始集合中的对象
  2. 步骤 1 中未选择的对象形成测试集(这大致是13N对象)
  3. 分类器在训练集上进行训练并在测试集上进行测试,并收集测量的误差
  4. 重复步骤 1-3T次,在哪里T更不随意,比如 10、15 或 30