记号是什么s'〜T _(小号,一, ⋅ )s′∼T(s,a,⋅)意思是?

人工智能 强化学习 符号 期待 学徒学习
2021-10-25 07:05:58

我一直在使用各自的下标看到有关期望的符号,例如Es0D[Vπ(s0)]=Σt=0[γtϕ(st)]. 该等式取自https://ai.stanford.edu/~ang/papers/icml04-apprentice.pdfQπ(s,a,R)=R(s)+γEsT(s,a,)[Vπ(s,R)],以贝叶斯 IRL 论文为例。(https://www.aaai.org/Papers/IJCAI/2007/IJCAI07-416.pdf

我明白那个s0D表示起始状态s0从起始状态的分布中得出D. 但是我们如何理解带有下标的后者sT(s,a,)? 怎么s从转移概率的分布中得出?

1个回答

点 (.) 在......的最后T(s,a,.)显示我们可以从状态中去的所有可能状态S通过行动a. 如您所知,这里有一些选择这些状态的概率,这些概率的总和等于 1。因此,T(s,a,.)是一个概率分布。