是否有 RL 技术来处理增量动作空间?

人工智能 强化学习 参考请求 行动空间
2021-11-15 04:18:29

假设我们有一个可以通过一些 RL 算法解决的问题(例如 DQN,因为我们有离散的动作空间)。起初,动作空间是固定的(动作的数量是n1),我们已经很好地训练了一个离线 DQN 模型。后来,由于某些原因,我们不得不添加更多的动作(现在动作的数量是n2, 在哪里n2>n1)。

是否有一些解决方案来更新价值函数或策略(或神经网络),只需进行微小的更改?

1个回答

是否有一些解决方案可以只进行微小的更改来更新模型?

一般来说,假设新的行动选择是有意义的——至少在某些状态下,采取一项新行动的预期回报高于仅使用旧行动选择的当前最优策略——那么这里的答案是“否”。

至少你需要重新训练你的代理,让它探索新的动作选择,并学习新的价值函数和策略。当然,您可以使用从早期环境中学到的数据和内部表示开始重新训练,如果新操作没有彻底改变事情,这可能会有所帮助。

有几件事可能有助于提高这种重新训练的性能:

  • 如果动作不是完全离散的,但具有一些可以概括的特征,您可以将价值函数或策略函数估计器基于这些特征而不是离散动作。因此,例如在 DQN 中,您对神经网络的输入将是连接状态、动作特征向量并输出单个值。然后它可能会迅速推广到新动作,在某些情况下甚至可能从一开始就接近正确的价值估计。

  • 如果您使用 DynaQ+ 进行训练,这包括一个探索术语(添加到即时奖励的计划评估中),它将在新状态/动作对出现时优先探索它们。其他计划算法可能有类似的调整,尽管我不知道可以直接放入 DQN 代理的具体调整。

如果您事先知道新动作可能在哪些状态下最有用,则可以将该知识插入到一些初始动作选择或值估计助手中,以避免从头开始训练的需要。