如何为大型模型确定训练超参数?

人工智能 神经网络 深度学习 训练 超参数优化 超参数
2021-10-29 17:41:17

在训练一个相对较小的 DL 模型(需要几个小时来训练)时,我通常从文献中的一些起点开始,然后使用试错法或网格搜索方法来微调超参数的值,为了防止过度拟合并获得足够的性能。

但是,大型模型以天或周为单位测量训练时间的情况并不少见 [ 1 ]、[ 2 ]、[ 3 ]。

在这种情况下如何确定超参数?

1个回答

一般来说,它在计算上肯定非常昂贵,因此在实践中不会执行详尽的搜索。然而,最近有一些方法可以在不首先训练神经网络的情况下确定架构是否“良好”——通过在转发数据后查看协方差矩阵,例如,在最近的一篇论文Neural Architecture Search without Training中。然而,这种方法是非常有限的。