机器算法验证 - 我可以有太多的数据吗？ - 吾爱随笔录

我正在为一个非常简单的任务训练大量的神经网络。其中 10 个网络具有相同的配置，但具有不同的数据量。10 个网络每个都有一个隐藏层，其中有 2 个神经元。第一个网络有 1.000 个训练样本，接下来是 2.000 个，最后一个网络有 10.000 个训练样本。

第一个网络的 1000 个训练示例是第二个网络的 2000 个训练示例的子集，第二个网络也是 3000 个训练示例的子集，依此类推。

我使用 MATLAB 中的 NN-Toolbox 中的构建来训练我的网络，我使用的是 Levenberg-Marquardt 算法。当我训练网络时，它们的均方误差都在 0.007 左右（这对于我的特定问题来说似乎是公平的）。唯一不同的是第一个，它实现了大约 0.002 的 MSE。

在我用数据训练我的网络之后，我在一些我没有用于训练的测试数据上测试它们。现在的问题是，具有 1000 个训练示例的网络严重优于其他网络。从 MSE 分数来看，这似乎是公平的，但我不明白为什么拥有更多可用数据的网络，甚至网络使用的数据，都无法更好地学习参数。

是否存在数据过多之类的问题？