使用最后一个有用吗ñN训练 RL 代理的数据点?

数据挖掘 强化学习
2022-02-22 22:20:49

鉴于强化学习中的环境是马尔可夫决策过程(MDP),是否有任何情况下使用最后一个是有益的(或者确实是有意义的)N>1训练代理的数据点,而不仅仅是当前数据点?

1个回答

是的,它被称为多步学习,通常可以导致更快的学习。