哪种深度强化学习算法适合我的问题?

人工智能 强化学习 优化 深度学习
2021-10-23 22:10:08

我的任务是通过深度强化学习解决优化问题。我阅读了几种算法,如 DQN、PPO、DDPG 和 A2C/A3C,但用例似乎总是像视频游戏(稀疏奖励等)或机器人技术(连续动作空间等)这样的问题。由于我的问题是优化问题,我想知道哪种算法适合我的设置:

  • 有限数量的离散动作(如 20 个)
  • 高维状态(如 250 个值)
  • 每次行动后的即时奖励(不仅在剧集结束时)
  • 单个动作可以对状态产生很大影响

没有像电子游戏中那样的“目标”,一集在一定数量的动作后结束。我不太确定哪种算法适合我的用例。

1个回答

从理论上讲,视频游戏和机器人问题也与优化(获得最大奖励)有关。因此,就像其他强化学习问题一样,我希望 PPO 在您的情况下也是最有效的。我认为 rl 不需要“目标”,您所需要的只是奖励。