连续(而不是离散)动作的强化学习

数据挖掘 强化学习
2021-10-14 17:26:01

我熟悉传统的强化学习,其中算法必须选择分类动作(例如,游戏中的最佳移动或一组广告中点击率最高的广告)。强化学习是否适用于持续行动的问题?您是否推荐任何易于理解的参考资料?我希望能够使用强化学习来分配以美元(即连续金额)表示的信用额度。

编辑:我从谷歌的 DeepMind 看到了这篇论文,到目前为止似乎很相关。

1个回答

那篇论文中描述的 DDPG 非常适合开始处理控制问题。网上有很多这个算法的实现。但是,请记住,该算法非常不稳定,需要数小时的监控和调整网络参数。我建议您创建一个非常简单的场景(模拟器)并让 DDPG 与之交互。了解您的网络正在学习什么以及哪些状态特征重要或不重要,这一点非常重要。此外,奖励函数将在算法的性能中发挥非常重要的作用。

另一个重要的一点是,您将问题形式化的方式将决定您是尝试解决一步决策问题(例如,给定状态特征 ---> 信用额度值、奖励)还是顺序决策问题(例如,给定状态特征--->信用额度值、奖励、新状态特征等)。这将指定是否需要修改 Critic 的 Q 学习部分并删除maxQ(s,a)部分(一步决策案例)。

关于预训练,正如 Neil 建议的那样,您可以使用回归来预训练 Actor 和 Critic 网络,以便将权重初始化为比随机值更好。Deepmind 提供的一种非常有趣的方法是在这篇论文Learning from Demonstrations for real-world RL中描述的方法,并且很可能帮助他们优化了服务器中心的能源消耗。