我读过大部分问题都可以用 1-2 个隐藏层来解决。
你怎么知道你需要超过 2 个?对于什么样的问题你需要它们(给我一个例子)?
形式上,单个隐藏层足以将连续函数逼近到任何所需的准确度,因此从这个意义上说,您永远不需要超过 1。这称为通用逼近定理。
为给定问题找到最佳拓扑是一个开放的研究问题。据我所知,这方面几乎没有通用的“经验法则”。
对于给定的问题,一种选择是应用神经进化方法,例如NEAT,它试图找到一个对手头问题有效的拓扑。