到目前为止,我已经开发了简单的 RL 算法,例如 Deep Q-Learning 和 Double Deep Q-Learning。另外,我读了一些关于 A3C 和策略梯度的文章,但只是肤浅的。
如果我没记错的话,所有这些算法都专注于动作的价值,并试图获得最大的价值。给定代理可能采取的行动,是否有一种 RL 算法也试图预测下一个状态将是什么?
那么,在不断训练获得最佳奖励的同时,还会不断训练以尽可能准确地预测下一个状态吗?然后总是将下一个状态的预测作为输入传递给决定要采取的行动的 NN。似乎是一条有用的信息。