为什么 actor-critic 算法仅限于使用 on-policy 数据?

人工智能 强化学习 演员批评方法 策略方法 策略外方法
2021-11-12 12:48:11

为什么 actor-critic 算法仅限于使用 on-policy 数据?或者我们可以将actor-critic算法与off-policy数据一起使用吗?

1个回答

这是因为,在 actor-critic 算法中,目标函数是τ的政策。如果我们想使用非策略数据,我们必须诉诸相对于其他策略的重要性抽样。