ReLU 在原点不可微。然而,它们与随机梯度下降算法和反向传播一起广泛用于深度学习,其中损失函数的梯度是使用链式法则计算的。
鉴于 ReLU 在 x=0 处不可微分,这些算法如何计算导数?
ReLU 在原点不可微。然而,它们与随机梯度下降算法和反向传播一起广泛用于深度学习,其中损失函数的梯度是使用链式法则计算的。
鉴于 ReLU 在 x=0 处不可微分,这些算法如何计算导数?
在 x = 0 时,ReLU 函数不再可微,但是它是可微分的,并且 [0,1] 范围内的任何值都是子梯度的有效选择。您可能会看到一些实现只是在 x = 0 奇点处使用 0 次梯度。有关更多详细信息,请参阅 Wikipedia 文章:Subdervative。