多元统计有一条古老的经验法则,建议每个自变量至少有 10 个案例。但这通常是每个变量都有一个参数适合的地方。
为什么我要问:我正在研究一个教科书示例,该示例使用 500 个训练案例(数据集中的 25000 个)具有 15 个预测变量和一个具有 8 个隐藏节点的隐藏层。所以我们估计有 153 个权重。在 500 个案例中,有 129 个为 1,其余为 0。所以要预测的权重多于正例。这似乎是错误的。生成的模型过拟合(但此教科书问题未涵盖验证)。
那么,最低限度的指南是什么?输入变量的 10 倍?10倍参数估计?还有什么?
有相关的答案,但它们似乎更多地指代理想的样本量而不是最小值,例如如何获得神经网络训练所需的数据集大小?
或无人回答分类器所需的最小训练样本量
但是,当然,我可能错过了一些以前的好答案。