当我向 CNN 添加更多隐藏层(例如 Dense Layers)时,模型似乎需要更多的训练样本才能为训练样本很少的类产生良好的结果。在单层情况下,模型提供了更好的结果,即使对于样本很少的类也是如此。(>10 类的多类文本分类)
有任何证据表明我的假设是正确的吗?
当我向 CNN 添加更多隐藏层(例如 Dense Layers)时,模型似乎需要更多的训练样本才能为训练样本很少的类产生良好的结果。在单层情况下,模型提供了更好的结果,即使对于样本很少的类也是如此。(>10 类的多类文本分类)
有任何证据表明我的假设是正确的吗?
是的,这是常识。每次向模型添加参数时,都需要为其提供更多数据,以便它能够像更简单的模型一样学习。神经网络中的每个权重都是一个参数。权重越多,参数越多,需要的数据就越多。
模型构建的基本任务之一是在有足够的参数来学习精细细节和有足够的数据来训练所有这些参数之间找到一个很好的权衡。太多的参数会导致过度拟合,部分原因是如果你没有足够的数据,你最终会记住单个案例,而不是学习并平均分布在多个案例中。
这是阶级不平衡成为问题的原因之一。如果您没有关于其中一个类的足够数据,那么模型将很难理解该类。