鉴于强化学习中的环境是马尔可夫决策过程(MDP),是否有任何情况下使用最后一个是有益的(或者确实是有意义的)训练代理的数据点,而不仅仅是当前数据点?
使用最后一个有用吗ñN训练 RL 代理的数据点?
数据挖掘
强化学习
2022-02-22 22:20:49
1个回答
是的,它被称为多步学习,通常可以导致更快的学习。
其它你可能感兴趣的问题