有没有办法定义训练集的最佳大小的边界?

人工智能 神经网络 训练 优化 样本复杂度
2021-11-08 17:22:37

在 Computer Science SE 的一个相关问题上,一位用户告诉我们:

神经网络通常需要大量的训练集。

在一般情况下,有没有办法定义训练集的“最佳”大小的边界?

当我学习模糊逻辑时,我听说过一些经验法则,其中涉及检查问题的数学组成并使用它来定义模糊集的数量。

有没有这样一种方法可以适用于已经定义好的神经网络架构?

2个回答

为了使有限值成为“最佳”,通常您需要从更多配对中获得一些收益,并与更多成本配对,最终由于收益减少而成本增加,因此两条线交叉。

大多数模型会随着更多的训练数据而减少错误,这会逐渐接近模型所能做的最好的。请参阅此图像(来自此处)作为示例:

随着训练集大小的增加而减少错误

训练数据的成本也有些明显;获取、存储和移动数据的成本很高。(假设模型复杂度保持不变,存储、移动和使用模型的实际成本保持不变,因为模型中的权重只是在调整。)

所以在某些时候,误差减少曲线的斜率变得足够水平,以至于更多的数据点比它们的价值更昂贵,这就是训练数据的最佳数量。

一般来说,训练集越大越好。请参阅The Unreasonable Effectiveness of Data,尽管这篇文章已经过时(写于 2009 年)。Netflix 的研究员 Xavier Amatriain 有一个Quora 答案,他在其中讨论了更多数据有时会损害算法。

特别是对于深度神经网络,我们似乎还没有达到这些限制。