训练集和验证集可以重叠吗?

数据挖掘 机器学习 训练 数据科学模型
2022-02-27 05:16:40

训练集和验证集可以重叠吗?

同样,测试集和验证集可能重叠吗?

1个回答

定义,所以我们在同一页上:

  • 训练集:用于训练模型的数据点。
  • 验证集:持续检查模型性能的数据点,以便了解何时停止训练。
  • 测试集:训练完成后用于检查性能的数据点。

训练集和验证集可以重叠吗?

他们不应该

验证集用于了解何时停止训练您的模型。这个想法是你经常检查你的模型性能,当似乎没有更多的改进时,你就停下来。

看看下面的情节。它正在绘制模型的损失如果损失仍在减少,则意味着您可以继续改进模型,但如果损失停止减少,则停止训练。

请注意有效 损失如何在train loss之前停止减少那是因为模型可以不断改进以提高训练集的性能,但如果你这样做,你会得到过度拟合因此,通过拥有一个看不见的验证集,您将更早地停止训练并且不会过度拟合您的模式,否则,如果您继续训练,验证集的准确性开始下降

这意味着如果两组重叠验证损失将变得更类似于训练损失,因此您的模型将继续训练并且您将过度拟合您的模型。

在此处输入图像描述


验证集和测试集可以重叠吗?

他们不应该

您已经使用您的验证集来停止训练您的模型。这意味着你已经知道你的模型在验证集上的表现了。

现在您的模型已经过训练,并且您想使用未见过的数据点(即使用测试集)来测试您的模型。如果您的集合重叠,则您的测试结果会偏向已经知道模型具有的性能。