我使用交叉验证和贝叶斯优化找到了一组最佳超参数(例如梯度下降的学习率)。在搜索最佳超参数时,我的神经网络架构保持不变(相同的层数、相同的节点数等)。
我选择了具有 2 个隐藏层的相对较小的架构,以便模型能够更快地训练和评估。
现在我已经找到了最优的超参数,我想知道如果我增加隐藏层和每层节点的数量,超参数仍然是最优的吗?其他一切都将保持不变(相同的训练数据和验证数据)。
现在让网络更深更宽的原因是,这将作为最终模型,我将允许训练更多的 epoch 以获得尽可能高的准确度;我不介意现在训练 1 个模型是否需要几天时间,而在优化超参数时,我需要在几个小时内训练一个模型。