对于更深的神经网络架构,最优​​超参数仍然是最优的吗?

机器算法验证 神经网络 超参数
2022-03-13 04:18:55

我使用交叉验证和贝叶斯优化找到了一组最佳超参数(例如梯度下降的学习率)。在搜索最佳超参数时,我的神经网络架构保持不变(相同的层数、相同的节点数等)。

我选择了具有 2 个隐藏层的相对较小的架构,以便模型能够更快地训练和评估。

现在我已经找到了最优的超参数,我想知道如果我增加隐藏层和每层节点的数量,超参数仍然是最优的吗?其他一切都将保持不变(相同的训练数据和验证数据)。

现在让网络更深更宽的原因是,这将作为最终模型,我将允许训练更多的 epoch 以获得尽可能高的准确度;我不介意现在训练 1 个模型是否需要几天时间,而在优化超参数时,我需要在几个小时内训练一个模型。

1个回答

不幸的是,它不是那样工作的。超参数以难以预测的方式协作。例如,说明这一点有点极端。

您没有隐藏层,换句话说,您正在拟合逻辑回归。逻辑回归通常不会真正过拟合。因此,您使用了相对较大的学习率和大量的 epoch,并发现效果很好,至少不会比其他超参数配置差。然后增加层数。你得到一个复杂的模型,现在突然容易过度拟合。然后大的学习率和之前运行良好的许多 epoch 不再是最优的。

小事,我会说隐藏节点的数量,或者更一般地说,神经网络的整个架构,也是超参数的一部分。所以我读到的你的问题更像是,如果我增加网络的复杂性,相同的学习率是否会是最佳的。