为什么产生大于 1 或小于 0 的值的非线性激活函数起作用?
我的理解是神经元只能产生 0 到 1 之间的值,并且这个假设可以用于交叉熵之类的事情。我的假设完全错误吗?
是否有任何参考资料可以解释这一点?
为什么产生大于 1 或小于 0 的值的非线性激活函数起作用?
我的理解是神经元只能产生 0 到 1 之间的值,并且这个假设可以用于交叉熵之类的事情。我的假设完全错误吗?
是否有任何参考资料可以解释这一点?
Christopher Olah 的博客文章比以往任何时候都更好地描述了它。基本上,我们遇到的大多数数据都不能用一条线分开,而是用某种曲线分开。非线性允许我们以使数据线性可分的方式扭曲输入空间,从而使分类更加准确。