一些 RL 文献使用诸如“Bellman 备份”和“Bellman 错误”之类的术语。这些术语指的是什么?
术语“Bellman 备份”和“Bellman 错误”是什么意思?
人工智能
强化学习
术语
贝尔曼方程
行李员
2021-11-04 18:55:40
1个回答
Bellman 备份是 Bellman 运算符的应用程序。例如,步骤
是某个学习率的贝尔曼备份.
贝尔曼错误是
对于一些指标, 通常.