在使用神经网络解决分类问题时,无论是文本还是图像,类的数量如何影响模型大小和训练所需的数据量?
是否存在任何软性或硬性限制,输出数量开始阻碍学习?
你知道关于类数如何扩展模型的任何分析吗?
最佳尺寸是否与输出数量成比例增加?它会增加吗?如果确实增加,关系是线性的还是指数的?
在使用神经网络解决分类问题时,无论是文本还是图像,类的数量如何影响模型大小和训练所需的数据量?
是否存在任何软性或硬性限制,输出数量开始阻碍学习?
你知道关于类数如何扩展模型的任何分析吗?
最佳尺寸是否与输出数量成比例增加?它会增加吗?如果确实增加,关系是线性的还是指数的?
更多类增加网络大小的最明显方式是输出层,但我不相信整个网络的大小有一个经验法则。
据我了解,对于层数与类数相比,网络需要多大才能实现一定的性能没有明确的答案。这是一个非常活跃的研究领域,就像一个例子,将 EfficientNet 的大小与其他最先进的模型在引入时进行比较,您可以看到大小差异。
关于所需的数据,在The Deep Learning Book(现在已经有几年了)中,他们一般说,对于当时可用的模型,每个标签需要大约 5000 个示例才能获得可接受的性能,同时要超过人类的表现(他们的话)您将需要大约 1000 万个带标签的示例。
模型/网络设计有多个准则,一个基本的准则是:网络的解决能力应该大于待解决问题的可能性空间。
一个网络(通常是密集的)的求解能力(学习能力)可以计算为所有层中神经元数量的乘积,例如:
输入形状:10 个值
网络形状:[layer1 30 个单元,layer2 20 个单元,输出 1 个单元] 应该有学习能力,它学习大约最多 600 个不同的输入(每个输入包含 10 个值)。
另一个考虑,分离线,即使要学习的问题的输入是无限的,但是 2 个类(只是示例)总是在一条线的两侧分开而不会混淆,只需一个神经元就可以解决问题。
一个神经元可以制作 1 条分隔线,1 层制作一条折线,由该层中的神经元分段,另一层制作另一条折线。
因此,更多的类,更多的分离,更多的类意味着输入的种类很大,所以训练数据肯定很多,模型大小需要很大。