在 Sutton 和 Barto 中,on-policy 分布定义如下:
另一方面,状态访问频率在Trust Region Policy Optimization中定义如下:
ρπ( s ) =∑t = 0吨γ吨磷(s吨=小号| π)ρπ(s)=∑t=0TγtP(st=s|π)
问题::在策略分布和国家访问频率之间有什么区别?