交叉验证堆叠集成的交叉验证?

数据挖掘 交叉验证
2021-10-15 17:30:05

首先让我说,我了解如何通过使用交叉验证为基础学习器生成非折叠预测以生成元特征来构建堆叠集成。我的问题是关于交叉验证整个堆叠集成以检查泛化错误时的方法。

为了消除任何混淆,我将调用交叉验证来为基础学习器 CV A 生成不折叠预测,而我将调用整个堆叠集成 CV B 的交叉验证。

当我做 CV B 时,是否只做一次 CV A 并在整个 CV B 过程中使用那些不相关的预测?还是我必须继续做 CV A 并在 CV B 的每个折叠期间生成新的折叠预测?

通常,我认为在第一种方法中会有一些数据泄漏,但人们也可以推断出,由于采用了非折叠预测,嗯,不折叠,这个问题得到了解决。我问这个的主要原因是因为执行第二种方法肯定会消除任何数据泄漏,但会涉及一个数量级的额外计算复杂性。

1个回答

我在 Reddit 上发布了同样的问题,有人很友好地回答

通过https://www.reddit.com/user/patrickSwayzeNU

当我做 CV B 时,是否只做一次 CV A 并在整个 CV B 过程中使用那些不相关的预测?

通常,我认为在第一种方法中会有一些数据泄漏,但人们也可以推断出,由于采用了非折叠预测,嗯,不折叠,这个问题得到了解决。

是的,您由 CV A 创建的数据集现在“完好如新”。