人工智能 - 如何为大型模型确定训练超参数？ - 吾爱随笔录

如何为大型模型确定训练超参数？

人工智能神经网络深度学习训练超参数优化超参数

2021-10-29 17:41:17

在训练一个相对较小的 DL 模型（需要几个小时来训练）时，我通常从文献中的一些起点开始，然后使用试错法或网格搜索方法来微调超参数的值，为了防止过度拟合并获得足够的性能。

但是，大型模型以天或周为单位测量训练时间的情况并不少见 [ 1 ]、[ 2 ]、[ 3 ]。

在这种情况下如何确定超参数？

1个回答

一般来说，它在计算上肯定非常昂贵，因此在实践中不会执行详尽的搜索。然而，最近有一些方法可以在不首先训练神经网络的情况下确定架构是否“良好”——通过在转发数据后查看协方差矩阵，例如，在最近的一篇论文Neural Architecture Search without Training中。然而，这种方法是非常有限的。

其它你可能感兴趣的问题

上一篇双 DQN 相对于 DQN 到底有什么优势？下一篇为什么多层感知器的隐藏层中的每个神经元通常具有相同的激活函数？