所有 RL 算法都基于 MDP 吗?如果不是,你能举一些不是的例子吗?我在别处看过,但我没有看到它明确说过。
是否有不基于马尔可夫决策过程的强化学习算法?
人工智能
强化学习
马尔可夫决策过程
2021-11-10 00:46:43
0个回答
没有发现任何回复~
其它你可能感兴趣的问题