是否有不基于马尔可夫决策过程的强化学习算法?

人工智能 强化学习 马尔可夫决策过程
2021-11-10 00:46:43

所有 RL 算法都基于 MDP 吗?如果不是,你能举一些不是的例子吗?我在别处看过,但我没有看到它明确说过。

0个回答
没有发现任何回复~