人工智能 - 为什么 actor-critic 算法仅限于使用 on-policy 数据？ - 吾爱随笔录

人工智能强化学习演员批评方法策略方法策略外方法

2021-11-12 12:48:11

为什么 actor-critic 算法仅限于使用 on-policy 数据？或者我们可以将actor-critic算法与off-policy数据一起使用吗？

1个回答

这是因为，在 actor-critic 算法中，目标函数是 $\tau$ 的政策。如果我们想使用非策略数据，我们必须诉诸相对于其他策略的重要性抽样。

其它你可能感兴趣的问题