贝尔曼更新规则中的括号在哪里?

人工智能 强化学习 贝尔曼方程
2021-11-04 03:52:28

我对这个方程没有太多的直觉。我有这个贝尔曼更新规则:

vπ(s)=aπ(a|s)s,rp(s,r|s,a)[r+γvk(s)]

但是括号在哪里?是使用索引的第二个总和a从第一笔钱开始?或者它是独立的,我可以搬出去吗?[r+γvk(s)]总和?

1个回答

这是您的方程式,另外还有一对括号,强调了运算的顺序(请注意,您的原始方程式中有一个小错字)。

vπ(s)=aπ(as)(s,rp(s,rs,a)[r+γvπ(s)])

现在,让我回答你的其他问题。

是使用索引的第二个总和a从第一笔钱开始?

是的。

或者它是独立的,我可以搬出去吗?[r+γvπ(s)]总和?

不,您不能将此项从总和中移出,因为第二个总和是总和rsr+γvπ(s)取决于这些条款。

注意vπ(s)被定义为期望,并且π(as)(政策)和p(s,rs,a)模型)是概率分布。