简单神经网络的最小训练规模

机器算法验证 自习 神经网络 样本量
2022-03-26 19:33:08

多元统计有一条古老的经验法则,建议每个自变量至少有 10 个案例。但这通常是每个变量都有一个参数适合的地方。

为什么我要问:我正在研究一个教科书示例,该示例使用 500 个训练案例(数据集中的 25000 个)具有 15 个预测变量和一个具有 8 个隐藏节点的隐藏层。所以我们估计有 153 个权重。在 500 个案例中,有 129 个为 1,其余为 0。所以要预测的权重多于正例。这似乎是错误的。生成的模型过拟合(但此教科书问题未涵盖验证)。

那么,最低限度的指南是什么?输入变量的 10 倍?10倍参数估计?还有什么?


有相关的答案,但它们似乎更多地指代理想的样本量而不是最小值,例如如何获得神经网络训练所需的数据集大小?

权衡批量大小与训练神经网络的迭代次数

或无人回答分类器所需的最小训练样本量

但是,当然,我可能错过了一些以前的好答案。

2个回答

这是一般情况下无法回答的。如果您正在处理具有强预测功能的问题,您的任务会更容易 - 较小的样本量将估计高性能模型。但是只有弱相关特征的问题很难找到信号。

在极端情况下,如果您的所有特征都是纯噪声,那么即使您拥有任意大量数据,任何网络都无法很好地泛化。

聪明的正则化和特征选择可以提供帮助。如果正则化和特征选择可以改变估计具有特定性能水平的网络所需的参数数量,那么这个问题似乎比简单的指南还要复杂。

那么,最低限度的指南是什么?输入变量的 10 倍?10倍参数估计?

我阅读了经典的统计建议,使用的样本数量至少是参数数量的 10 倍。当然,这是模糊的。如果问题太吵,你可以要求多 100 倍,或者多 1000 倍。

正如@Sycorax 所提到的,没有明确简洁的答案,但您至少可以记住,样本数量等于参数数量将允许绘制一个超平面(在您的情况下),它可以完美地划分您的类。

看看 Vapnik-Chervonenkis 维度概念,它可以帮助更正式地阐明问题:VC 维度