在 Computer Science SE 的一个相关问题上,一位用户告诉我们:
神经网络通常需要大量的训练集。
在一般情况下,有没有办法定义训练集的“最佳”大小的边界?
当我学习模糊逻辑时,我听说过一些经验法则,其中涉及检查问题的数学组成并使用它来定义模糊集的数量。
有没有这样一种方法可以适用于已经定义好的神经网络架构?
在 Computer Science SE 的一个相关问题上,一位用户告诉我们:
神经网络通常需要大量的训练集。
在一般情况下,有没有办法定义训练集的“最佳”大小的边界?
当我学习模糊逻辑时,我听说过一些经验法则,其中涉及检查问题的数学组成并使用它来定义模糊集的数量。
有没有这样一种方法可以适用于已经定义好的神经网络架构?
为了使有限值成为“最佳”,通常您需要从更多配对中获得一些收益,并与更多成本配对,最终由于收益减少而成本增加,因此两条线交叉。
大多数模型会随着更多的训练数据而减少错误,这会逐渐接近模型所能做的最好的。请参阅此图像(来自此处)作为示例:
训练数据的成本也有些明显;获取、存储和移动数据的成本很高。(假设模型复杂度保持不变,存储、移动和使用模型的实际成本保持不变,因为模型中的权重只是在调整。)
所以在某些时候,误差减少曲线的斜率变得足够水平,以至于更多的数据点比它们的价值更昂贵,这就是训练数据的最佳数量。
一般来说,训练集越大越好。请参阅The Unreasonable Effectiveness of Data,尽管这篇文章已经过时(写于 2009 年)。Netflix 的研究员 Xavier Amatriain 有一个Quora 答案,他在其中讨论了更多数据有时会损害算法。
特别是对于深度神经网络,我们似乎还没有达到这些限制。