机器学习中测试分数、训练分数和验证分数的解释?

数据挖掘 交叉验证 过拟合
2021-09-19 10:41:01

对测试分数、训练分数和验证分数的解释?他们实际上告诉我们什么?

交叉测试分数、验证分数和测试分数之间可接受的差异是多少?

如果测试分数和训练分数之间的差异很小意味着它是一个很好的模型/拟合?

基于测试分数、训练分数和验证分数的过拟合和欠拟合?

这些分数或它们之间的差异是否告诉我们,如果我们需要更多数据(观察)

1个回答

对测试分数、训练分数和验证分数的解释?他们实际上告诉我们什么?

我们通常将数据集分为 3 个部分。训练数据、验证数据和测试数据。然后我们分析分数:

训练分数:模型如何概括或拟合训练数据。如果模型非常适合具有大量方差的数据,那么这会导致过度拟合。这会导致考试成绩不佳。因为模型弯曲了很多以适应训练数据并且泛化很差。因此,泛化是目标。

验证分数这仍然是一个实验部分。我们一直在用这个数据集探索我们的模型。我们的模型尚未在此阶段调用最终模型。我们不断地改变我们的模型,直到我们对我们得到的验证分数感到满意为止。

测试分数这是我们的模型准备好的时候。在这一步之前,我们还没有接触过这个数据集。因此,这代表了现实生活中的场景。分数越高,模型泛化效果越好。

交叉测试分数、验证分数和测试分数之间可接受的差异是多少?

我认为“交叉测试分数,验证分数”没有区别。正确的命名是“交叉验证分数”。通过多次以不同方式交换训练和验证数据来使用交叉验证。描述的图像(版权归向datascience.com保留):

K折交叉验证

所以你的问题应该是“交叉验证分数和测试分数之间可接受的差异是什么?” 这个问题没有直接的答案。这是您可能要考虑的长时间讨论:交叉验证与测试集

如果测试分数和训练分数之间的差异很小意味着它是一个很好的模型/拟合?

是的!!这就是我们努力的方向。为了实现这一点,我们经常需要各种工程技术、计算和参数调整。

基于测试分数、训练分数和验证分数的过拟合和欠拟合?

通常,高训练分数和低测试分数是过拟合的。非常低的训练分数和低测试分数是欠拟合的。这里的第一个例子,在技术上称为低偏差和高方差,这是过拟合的。后一个例子,高方差和高偏差称为欠拟合。换句话说,欠拟合的模型将具有高训练和高测试误差,而过拟合模型将具有极低的训练误差但具有高测试误差。

这些分数或它们之间的差异是否告诉我们,如果我们需要更多数据(观察)

这个问题问得好。你可以参考这里我从 Andrew NG 那里得到了最好的解释。这是链接这些会给你一个坚实的理解。但简而言之,我可以举例说明直觉(不准确):假设我有 500 行数据。我将首先获取 100 个数据。然后我将分析我的偏差和方差。接下来,我将从这 500 个数据中获取 100+100=200 个数据。我将再次记录我的偏差和方差。我将通过获取 300、400 和 500 个数据来继续这样做。如果我观察到我的偏差和方差正在改善(如果模型正在改善),则意味着添加更多数据实际上可能会有所帮助。这是一个非常简化的例子。但希望给人一种直觉。