交叉验证设置中训练集和测试集之间的重叠

数据挖掘 分类 情绪分析
2022-03-11 10:42:49

为什么使用训练集和测试集没有重叠的交叉验证设置来评估模型很重要?我注意到违反该准则会夸大模型的有效性。但是,我就是不明白怎么做。

1个回答

举个极端的例子。训练数据是测试数据。您可以使用过度拟合训练数据(即测试数据)的模型。很明显,您的模型将在测试数据上表现良好,因为它已经过训练。

通过混合训练数据和测试数据,您可以向模型展示测试数据,因此它可以隐式记住它。

我们的目标是为现实世界的数据提供良好的泛化能力,我们必须检查它的唯一方法是在看不见的测试数据上测试我们的模型。