数据挖掘 - 多少密集层就足够了？ - 吾爱随笔录

如果以下是一个愚蠢的问题，我对 NN 很陌生，很抱歉，但是：将多个 Keras 密集层相互堆叠是否有帮助？

我熟悉通用逼近定理。但我希望答案不是那么简单：当使用密集层时，只使用一层，因为它足以近似你需要的任何东西。

我在想，使用更多的层可能会导致多个更小的层，从而减少参数的数量。或者它可以提高性能。

您能否解释一下通常使用多少密集层并给出一些直觉，说明为什么更小或更大数量的层是一个不错的选择？

编辑：当谈到一层时，我的意思是一个隐藏层。我们可以将其视为具有输入、隐藏和输出层的 MLP。