为什么 actor-critic 算法仅限于使用 on-policy 数据?或者我们可以将actor-critic算法与off-policy数据一起使用吗?
为什么 actor-critic 算法仅限于使用 on-policy 数据?
人工智能
强化学习
演员批评方法
策略方法
策略外方法
2021-11-12 12:48:11
1个回答
这是因为,在 actor-critic 算法中,目标函数是的政策。如果我们想使用非策略数据,我们必须诉诸相对于其他策略的重要性抽样。