使用 RBM 预训练深度网络,如本示例RBM,激活函数是 sigmoid 并且使数学变得更容易。
在使用 sigmoid 激活函数学习初始权重以切换到训练阶段的 ReLU 后,会有什么影响?
我想在任何一个阶段(预训练或训练)中使用 tanh 并在另一个阶段使用 sigmoid 或 ReLU 会导致很大的问题,但是由于 ReLU 和 sigmoid 对于小的值是相似的,它仍然会使预训练阶段无用吗?
从使用 sigmoid 激活函数的神经网络可以将多少知识转移到结构相同但使用 ReLU 激活函数的神经网络,这个问题可能更笼统。