对于我仍在加快速度这一事实,我提前道歉。我试图了解将 tanh(映射 -1 到 1)与 sigmoid(映射 0 到 1)用于我的神经元激活函数的优缺点。从我的阅读来看,这听起来像是一件微不足道的事情。在我的问题的实践中,我发现 sigmoid 更容易训练,奇怪的是,sigmoid 似乎更好地找到了一般解决方案。我的意思是,当 sigmoid 版本完成训练后,它在参考(未经训练的)数据集上表现良好,而 tanh 版本似乎能够在训练数据上获得正确答案,而在参考上表现不佳。这适用于相同的网络架构。
我的一个直觉是,使用 sigmoid,神经元更容易几乎完全关闭,因此不会为后续层提供输入。tanh 在这里比较困难,因为它需要完美地取消它的输入,否则它总是给下一层赋值。也许这种直觉是错误的。
长帖。最重要的是,交易是什么,它应该有很大的不同吗?