对于问题连续动作空间,最简单的策略梯度方法是什么?

人工智能 强化学习 政策梯度 ddpg 加强 连续动作空间
2021-11-17 14:52:52

我有一个想用 RL 解决的问题,但我不确定它是否可行。

我的代理必须弄清楚如何填充一个由自然数组成的非常大的向量(比如在最复杂的环境中从 600 到 4000),即 600 向量[2000,3000,3500,]包括一天中每个时间步长的能量曲线,用于附近的每所房屋。对于这些可能的组合中的每一个,我都会获得奖励。当然,我的目标是最大化奖励。

我总是可以从相同的初始状态开始,每次选择任何个人资料时我都会收到奖励。我相信这两个因素简化了任务,因为我不需要有大量的情节来获得奖励,也不需要考虑不同的状态。

但是,我只有 DQN 方面的经验,而且我从未研究过 Policy Gradient 方法。所以我有一些问题:

  1. 我想用最简单的方法来实现,我考虑过 DDPG。但是,我真的不需要目标网络或批评网络,因为状态总是相同的。我应该使用香草PG吗?REINFORCE 会是一个不错的选择吗?

  2. 我了解了 PG 方法如何处理离散动作空间(使用 softmax 并选择一个动作 - 然后根据奖励得到加强或阻止)。但是,我不明白如何更新连续值。在 DQN 或随机 PG 中,神经网络的输出要么是 Q 值,要么是概率值,两者都可以通过奖励直接更新(奖励越多,Q 值/概率越大)。但是,我不明白这在连续情况下是如何发生的,我必须按原样使用模型的输出。在这种情况下,我必须对模型的损失函数进行哪些更改?

0个回答
没有发现任何回复~