我想我不明白 DQN 和 DDQN 在实现上有什么区别。我知道我们在运行 DDQN 期间更改了 traget 网络,但我不明白它是如何在这段代码中完成的。
我们self.target_model.set_weights(self.model.get_weights())
在 DDQN 的实现中添加了这个,当 DQN 的操作完成时 https://github.com/keon/deep-q-learning
self.target_model.set_weights(self.model.get_weights())
添加到 DQN 中,以便将 DQN 更改为 DDQN!但这发生在我们休息时跑出去的时候!因为它们之间没有区别!
我脑子里有什么问题?(也许不同之处在于测试?这段代码是用于训练的吗?测试是通过设置探索率=0 来完成的,然后用我们找到的新权重只运行一集?对吗?