术语“Bellman 备份”和“Bellman 错误”是什么意思?

人工智能 强化学习 术语 贝尔曼方程 行李员
2021-11-04 18:55:40

一些 RL 文献使用诸如“Bellman 备份”和“Bellman 错误”之类的术语。这些术语指的是什么?

1个回答

Bellman 备份是 Bellman 运算符的应用程序。例如,步骤

V(x)α(R+E[V(x)])+(1α)V(x)

是某个学习率的贝尔曼备份α.

贝尔曼错误是

d(V(x),R+E[V(x)])

对于一些指标d, 通常d(x,y)=(xy)2.