什么时候模型被认为是过度参数化的?

人工智能 深度学习 定义 收敛 概括
2021-11-02 13:19:39

什么时候模型被认为是过度参数化的?

深度学习中最近有一些关于过度参数化对泛化的作用的研究,所以如果我能知道究竟什么可以被认为是这样的,那就太好了。

一个手波的定义是:过度参数化的模型通常用于描述当您的模型大于拟合数据所需的模型时。

在一些论文中(例如,在A Convergence Theory for Deep Learning via Over-Parameterization 中),过度参数化被描述为:

它们的参数比训练样本的数量多得多

意味着神经元的数量与输入大小相比是多项式的

网络宽度足够大:多项式L,层数,在n, 样本数

这个定义不应该也取决于输入数据的类型吗?

例如,我适合:

  • 在 2 个二进制特征的 10M 样本上的 1M 参数模型,那么它不应该被过度参数化,或者

  • 在 512x512 图像的 0.1M 样本上建立 1M 参数模型,然后过度参数化,或

  • 论文Exploring the Limits of Weakly Supervised Pretraining "IG-940M-1.5k ResNeXt-101 32×48d" 中的模型,参数为 829M,在 1B Instagram 图像上训练,没有过度参数化

1个回答

好的,经过更多阅读,我目前对我在这个问题上找到的内容感到满意。

  • 是的,“参数化不足”和“参数化过度”术语目前没有被广泛接受的定义。
  • 这些术语的任何定义都应考虑输入数据域以及架构和训练过程。

在OpenAI Nakkiran 等人最近的一篇论文Deep Double Descent中。al 2019,作者试图将“双下降”现象中的“插值阈值”概念形式化和概括,这两个术语都是由 Belkin 等人推广的。al 2019协调现代机器学习实践与偏差-方差权衡

在 Deep Double Descent 论文中,他们定义了一个名为“Effective Model Complexity (EMC)”的概念,其中包括模型架构、训练过程和数据来描述“插值阈值”(模型可以接近完美地拟合训练数据的时刻) )。

低于插值阈值的 EMC 被认为是“参数化不足”,高于插值阈值被认为是“过度参数化”。

所以根据EMC的这个定义,我想:

在 2 个二元特征的 10M 样本上的 1M 参数模型,那么它不应该被过度参数化

由于输入数据的简单性,被过度参数化。

在 512x512 图像的 0.1M 样本上建立 1M 参数模型,然后过度参数化,或

如果它不能以接近 0 的损失拟合训练数据,则可能未参数化。

论文 Exploring the Limits of Weakly Supervised Pretraining "IG-940M-1.5k ResNeXt-101 32×48d" 中的模型,参数为 829M,在 1B Instagram 图像上训练,没有过度参数化

没有过度参数化,因为它不能完美地拟合整个训练数据。

我很想知道 EMC 是否会流行起来并成为未来模型复杂性的流行衡量标准。