假设我想根据读数预测传感器的位置。
我可以先预测单位向量,然后预测要乘以这个向量的距离。而且我知道距离永远不会是负数,因为所有负数部分已经在单位向量内。
在将距离乘以单位向量之前,我应该将 ReLU 应用于距离吗?
我认为这有助于通过限制网络可以提供的输出范围来消除网络需要过多的训练数据。但我也认为,当 ReLU 单元死亡(值 = 0)时,它可能会使学习变慢,因此梯度不会以某种方式正常流动。
假设我想根据读数预测传感器的位置。
我可以先预测单位向量,然后预测要乘以这个向量的距离。而且我知道距离永远不会是负数,因为所有负数部分已经在单位向量内。
在将距离乘以单位向量之前,我应该将 ReLU 应用于距离吗?
我认为这有助于通过限制网络可以提供的输出范围来消除网络需要过多的训练数据。但我也认为,当 ReLU 单元死亡(值 = 0)时,它可能会使学习变慢,因此梯度不会以某种方式正常流动。
将 ReLU 激活函数应用于非负数与应用恒等激活函数相同。
你可能想做的是申请,, ...,, 在哪里是维度的数量,并将其直接传递给参数矩阵乘法(这涉及在某些框架中故意在输入层中使用恒等激活)。当幅度呈现接近高斯指数的分布并且当以弧度表示时方向分量接近高斯时,这通常会提高收敛速度、准确性和可靠性。