为什么产生大于 1 或小于 0 的值的非线性激活函数起作用?

人工智能 神经网络 参考请求 激活函数 雷路 交叉熵
2021-10-30 05:33:59

为什么产生大于 1 或小于 0 的值的非线性激活函数起作用?

我的理解是神经元只能产生 0 到 1 之间的值,并且这个假设可以用于交叉熵之类的事情。我的假设完全错误吗?

是否有任何参考资料可以解释这一点?

2个回答

为什么他们不工作?

每个神经元的输出等于其所有权重之和乘以相应神经元的函数。如果该函数是Sigmoid函数,则输出从[0,1]. 如果整个层使用一个SoftMax函数,那么所有神经元的输出都会从[0,1]并且它们的总和等于 1。在其他情况下,它们表示一组概率,然后您可以使用交叉熵来优化它们的值(交叉熵测量两个概率分布之间的差异)。

ReLUELU只是其他类型的函数,其输出不限于范围[0,1]. 它们是可微的,就像其他激活函数一样,因此它们可以用于任何神经网络。

Christopher Olah 的博客文章比以往任何时候都更好地描述了它。基本上,我们遇到的大多数数据都不能用一条线分开,而是用某种曲线分开。非线性允许我们以使数据线性可分的方式扭曲输入空间,从而使分类更加准确。