我正在使用 PPO 算法为控制问题训练 RL 代理。我正在使用 stable-baselines 库。
代理的目标是在一个区域内保持 24 度的温度,它每 15 分钟采取一次行动。情节长度为 9 小时。我已经将模型训练了 100 万步,并且奖励已经收敛。我假设代理受过足够的训练。我做了一些实验,关于培训的问题很少
我通过让它从一个固定的初始状态采取行动来测试一个代理,并监视一个情节的行动和状态采取的行动。当我多次测试代理时,每次采取的行动和产生的状态都是不同的。为什么当代理训练有素时会发生这种情况?
我训练了一个代理 100 万步。我在相同的环境中使用相同的超参数步长训练另一个代理 100 万步,其他一切都相同。这两个代理会聚。现在,当我测试这些代理时,这些代理采取的行动并不相同/相似。为什么会这样?
有人可以帮我解决这些问题吗?
谢谢