人工智能 - 政策分布和国家访问频率之间有什么区别？ - 吾爱随笔录

人工智能强化学习比较政策萨顿巴托信任区域策略优化

2021-10-19 23:46:44

在 Sutton 和 Barto 中，on-policy 分布定义如下：

另一方面，状态访问频率在Trust Region Policy Optimization中定义如下：

ρ_{π} (s) = \sum_{t = 0}^{T} γ^{t} P (s_{t} = s | π)

$\rho_{\pi}(s) = \sum_{t=0}^{T} \gamma^t P(s_t=s|\pi)$

问题：：在策略分布和国家访问频率之间有什么区别？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题