最简单的例子是在网络的上层/下层具有更快/更慢的学习率。我在 tensorflow 上找到了这篇文章。
您可以在此处关注此线程:https ://github.com/fchollet/keras/pull/3004似乎至少应该进行分层调整。