政策分布和国家访问频率之间有什么区别?

人工智能 强化学习 比较 政策 萨顿巴托 信任区域策略优化
2021-10-19 23:46:44

在 Sutton 和 Barto 中,on-policy 分布定义如下:

在此处输入图像描述

另一方面,状态访问频率在Trust Region Policy Optimization中定义如下:

ρπ(s)=t=0TγtP(st=s|π)

问题::在策略分布和国家访问频率之间有什么区别?

0个回答
没有发现任何回复~