什么时候模型被认为是过度参数化的?
深度学习中最近有一些关于过度参数化对泛化的作用的研究,所以如果我能知道究竟什么可以被认为是这样的,那就太好了。
一个手波的定义是:过度参数化的模型通常用于描述当您的模型大于拟合数据所需的模型时。
在一些论文中(例如,在A Convergence Theory for Deep Learning via Over-Parameterization 中),过度参数化被描述为:
它们的参数比训练样本的数量多得多
意味着神经元的数量与输入大小相比是多项式的
网络宽度足够大:多项式,层数,在, 样本数
这个定义不应该也取决于输入数据的类型吗?
例如,我适合:
在 2 个二进制特征的 10M 样本上的 1M 参数模型,那么它不应该被过度参数化,或者
在 512x512 图像的 0.1M 样本上建立 1M 参数模型,然后过度参数化,或
论文Exploring the Limits of Weakly Supervised Pretraining "IG-940M-1.5k ResNeXt-101 32×48d" 中的模型,参数为 829M,在 1B Instagram 图像上训练,没有过度参数化