我的理解是,没有任何花哨的激活函数的典型神经网络只能解决可以建模为连续函数的问题。如果是这样,为什么标准的神经网络(1 个隐藏层)可以解决异或?我不是在这里寻找异或的解决方案,而是解释为什么使用非连续函数可以做到这一点。
对此问题的任何帮助将不胜感激。
我的理解是,没有任何花哨的激活函数的典型神经网络只能解决可以建模为连续函数的问题。如果是这样,为什么标准的神经网络(1 个隐藏层)可以解决异或?我不是在这里寻找异或的解决方案,而是解释为什么使用非连续函数可以做到这一点。
对此问题的任何帮助将不胜感激。
我想你需要的观察是神经网络通常是一个函数或类似的东西,而 XOR 函数是来自的映射到.
构造一个函数很容易,当限制为, 是 XOR 函数,但在. 考虑
当然,,和, 所以. 但我们可以看到是一个连续函数(在)。我们不在乎它在几乎整个; 它只需要在我们关心的四点上达成一致。
尝试明确地构建一个计算 XOR 函数的神经网络是一个有趣的练习。你应该可以通过 ReLU 激活相当容易地做到这一点;用几层来做可能会稍微简单一些。如果还不清楚,我可以进一步扩展。