如果您查看文档http://keras.io/optimizers/,SGD中有一个参数用于衰减。我知道这会随着时间的推移降低学习率。但是,我无法弄清楚它是如何工作的。它是乘以学习率的值,例如lr = lr * (1 - decay)
指数吗?另外,我如何查看我的模型使用的学习率?model.optimizer.lr.get_value()
当我在运行几个时期后进行打印时,即使我设置了衰减,它也会返回原始学习率。
我是否必须设置 nesterov=True 才能使用动量,或者我可以使用两种不同类型的动量。例如,这样做有没有意义sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)