究竟是什么让模型“过度参数化”?

机器算法验证 神经网络 自然语言 参数化
2022-03-24 20:19:41

我经常读到训练“过度参数化”的网络在实践中效果很好,也许还没有人知道确切的原因但是,当我查看许多 NN 使用的样本和参数数量时,它们仍然拟合的数据多于参数。

例如,考虑最近宣布的具有多达 1750 亿个参数的GPT-3语言模型。他们甚至从未尝试过拟合参数超过代币(3000 亿代币)的模型。

有人会认为这个神经网络参数过大吗?

如果是这样,标准、启发式或经验法则是什么?是不是,例如:

  • # 模型参数和数据点比率pn
  • 模型对训练数据进行插值的事实(模型的训练损失为 0
  • 以上所有/任何一项
  • 还有其他措施吗?

在此处输入图像描述

1个回答

“过度参数化”模型的参数比训练集中的数据点多。更正式地说,它不仅与参数的数量有关,还与记忆数据的能力有关,其中参数的数量只是衡量它的廉价代理。

你是对的,即使像 GTP-3 这样的大型模型也比完全记忆数据所需的要小得多。在小型数据集上可以实现过度参数化的模型。例如,Neal 等人 (2018) 在来自 MNIST 的 100 个示例的子样本上训练了此类模型。您不想在实际任务中使用任何东西,因为它不切实际,并且需要巨大的计算能力。

检查此答案以获取一些相关参考。