机器算法验证 - 对于更深的神经网络架构，最优超参数仍然是最优的吗？ - 吾爱随笔录

我使用交叉验证和贝叶斯优化找到了一组最佳超参数（例如梯度下降的学习率）。在搜索最佳超参数时，我的神经网络架构保持不变（相同的层数、相同的节点数等）。

我选择了具有 2 个隐藏层的相对较小的架构，以便模型能够更快地训练和评估。

现在我已经找到了最优的超参数，我想知道如果我增加隐藏层和每层节点的数量，超参数仍然是最优的吗？其他一切都将保持不变（相同的训练数据和验证数据）。

现在让网络更深更宽的原因是，这将作为最终模型，我将允许训练更多的 epoch 以获得尽可能高的准确度；我不介意现在训练 1 个模型是否需要几天时间，而在优化超参数时，我需要在几个小时内训练一个模型。