我正在一个受限的强化学习环境中工作,即环境经常中断(即:模拟器和强化学习代理之间的通信在一段时间后中断)。因此,我越来越难以在这种环境中继续训练。
连续状态空间是和连续的动作空间.
我想知道的是,鉴于 DDPG 是一种离策略算法,我是否可以将专家数据添加到重放缓冲区?
或者我应该使用行为克隆技术来仅训练参与者网络,以便它快速收敛?
我只想先把工作做好,然后再考虑探索环境。
我正在一个受限的强化学习环境中工作,即环境经常中断(即:模拟器和强化学习代理之间的通信在一段时间后中断)。因此,我越来越难以在这种环境中继续训练。
连续状态空间是和连续的动作空间.
我想知道的是,鉴于 DDPG 是一种离策略算法,我是否可以将专家数据添加到重放缓冲区?
或者我应该使用行为克隆技术来仅训练参与者网络,以便它快速收敛?
我只想先把工作做好,然后再考虑探索环境。
我想知道的是,鉴于 DDPG 是一种离策略算法,我是否可以将专家数据添加到重放缓冲区?
你当然可以,这确实是 off-policy 学习算法的优势之一;它们仍然是“正确的”,无论您从中学习的数据是由哪个策略生成的(并且提供学习经验的人类专家也可以被视为这样的“策略”)。
但是有一些潜在的问题需要注意。例如,如果您只是将一些专家生成的数据放在那里,并且不允许您的代理自行探索,那么您可以从中学习的经验可能在他们探索的状态-动作空间的部分中非常有限。因此,如果您的专家没有充分探索整个空间,您就不能指望智能体学习如何行动,无论出于何种原因它最终会进入某个未探索的空间。这与如果你用一个探索太少的代理(比如一个贪婪的代理)进行训练的情况没有什么不同。
或者我应该使用行为克隆技术来仅训练参与者网络,以便它快速收敛?
我不能自信地说哪种方法会更好,所以我不能真正回答这个问题……我想对于特定的不同问题域,答案也可能不同。但是使用离策略算法从专家数据中学习的基本原理并没有本质上是错误的。