在近似梯度时,使用实际的 epsilon 来移动权重会导致梯度近似值非常大,因为使用的近似三角形的“宽度”非常小。在Andrew NG-s course 中,他使用的是 0.01,但我想这仅用于示例目的。
这让我想知道,有没有一种方法可以根据例如网络的当前误差值来为梯度近似选择合适的 epsilon 值?
在近似梯度时,使用实际的 epsilon 来移动权重会导致梯度近似值非常大,因为使用的近似三角形的“宽度”非常小。在Andrew NG-s course 中,他使用的是 0.01,但我想这仅用于示例目的。
这让我想知道,有没有一种方法可以根据例如网络的当前误差值来为梯度近似选择合适的 epsilon 值?
听起来 epsilon 值是一个超参数,而误差值是一个评估指标。鉴于此,交叉验证可用于找到 epsilon 值,而不是最小化误差值。