如果以下是一个愚蠢的问题,我对 NN 很陌生,很抱歉,但是:将多个 Keras 密集层相互堆叠是否有帮助?
我熟悉通用逼近定理。但我希望答案不是那么简单:当使用密集层时,只使用一层,因为它足以近似你需要的任何东西。
我在想,使用更多的层可能会导致多个更小的层,从而减少参数的数量。或者它可以提高性能。
您能否解释一下通常使用多少密集层并给出一些直觉,说明为什么更小或更大数量的层是一个不错的选择?
编辑:当谈到一层时,我的意思是一个隐藏层。我们可以将其视为具有输入、隐藏和输出层的 MLP。
如果以下是一个愚蠢的问题,我对 NN 很陌生,很抱歉,但是:将多个 Keras 密集层相互堆叠是否有帮助?
我熟悉通用逼近定理。但我希望答案不是那么简单:当使用密集层时,只使用一层,因为它足以近似你需要的任何东西。
我在想,使用更多的层可能会导致多个更小的层,从而减少参数的数量。或者它可以提高性能。
您能否解释一下通常使用多少密集层并给出一些直觉,说明为什么更小或更大数量的层是一个不错的选择?
编辑:当谈到一层时,我的意思是一个隐藏层。我们可以将其视为具有输入、隐藏和输出层的 MLP。