我正在学习 Actor-Critic 强化学习算法。我遇到的一个消息来源提到 Actor 和 Critic 可以共享一个网络(但使用不同的输出层),或者他们可以使用两个完全独立的网络。在这段视频中,他提到使用两个独立的网络可以解决更简单的问题,例如 Mountain Car。然而,像月球着陆器这样更复杂的问题更适用于共享网络。这是为什么?你能解释一下选择一种设计而不是另一种设计会有什么不同吗?
Actor 和 Critic 是否共享同一个网络有什么区别?
人工智能
神经网络
强化学习
演员批评方法
2021-10-30 09:28:09
1个回答
人们可以期望选择下一个动作和评估状态所需的最佳高级特征非常相似。因此,为策略和价值函数共享同一个网络是一个合理的想法——你本质上是共享神经网络的特征提取部分的参数,并在两个不同的任务上微调网络的不同头:行动选择和价值预测。
使用二对一网络主要是样本效率问题:理论上,在这两种情况下,您的 AC 算法都应该有效。然而,在实践中,参数共享通常很有用,因为其中一个任务鼓励的表示可能对另一个任务非常有用,反之亦然,使一个任务能够导致另一个任务从局部最优解中解脱出来。这可能会更好的另一个原因仅仅是因为您不必从头开始学习相同(或至少相似)的表示两次 - 从而提高样本效率的训练。
其它你可能感兴趣的问题