许多作品使用 2-hidden-layer 神经网络对 MNIST 手写数字集进行分类。
为了提高准确性,已使用其他技术(dropout、ReLU 等)而不增加隐藏层的数量。
有什么理由不使用三个以上的隐藏层吗?例如,过拟合?
许多作品使用 2-hidden-layer 神经网络对 MNIST 手写数字集进行分类。
为了提高准确性,已使用其他技术(dropout、ReLU 等)而不增加隐藏层的数量。
有什么理由不使用三个以上的隐藏层吗?例如,过拟合?
根据经验,当您添加层时,MNIST 上的全连接网络的网络性能不会增加太多,但您可能会找到方法在具有 3 个以上隐藏层的网络上改进它,例如数据增强(例如所有输入的变化x 和 y 中的 +-0..2 像素,大约是原始数据大小的 25 倍,作为开始)。
我认为这个想法在实践中并没有被追求太远,因为 CNN 为所需的工作提供了更好的性能提升。使用基本 MLP(大约 96-97% 的准确率)比使用 CNN(大约 99% 的准确率)更容易达到收益递减点。
这种差异的理论基础对我来说并不明显,但很可能是的,这与过度拟合有关。CNN 中的权重共享和特征池化是处理图像数据以进行分类任务的非常有效的方法,并通过减少参数的数量来避免过度拟合,同时以非常有意义的方式重用任务的参数鉴于输入的性质。