数据挖掘 - 使用最后一个有用吗ñN训练 RL 代理的数据点？ - 吾爱随笔录

数据挖掘强化学习

2022-02-22 22:20:49

鉴于强化学习中的环境是马尔可夫决策过程（MDP），是否有任何情况下使用最后一个是有益的（或者确实是有意义的） $N>1$ 训练代理的数据点，而不仅仅是当前数据点？

1个回答

是的，它被称为多步学习，通常可以导致更快的学习。

其它你可能感兴趣的问题