在强化学习中,我可以在创建转换集时将状态空间中的 next_states 随机分配给我的代理吗?

数据挖掘 机器学习 深度学习 强化学习
2022-03-08 02:13:20

在强化学习中,在创建转换样本(状态、动作、下一个状态、奖励)时,其中:

  • 代理:学习代理
  • 环境:教练

环境给代理两个反馈:奖励和下一个状态。我可以作为环境,从总状态空间中随机分配 next_states 给我的代理。? 如何确定给定状态允许的 next_state(s) 是什么?

1个回答

这取决于您的环境。例如,如果您的环境是一条直线。假设状态是 1、2、3 ... 10。这里的代理可以向左或向右移动。现在,如果代理处于状态 4,并且它向右移动,根据环境的逻辑,next_state它必须是 5。

现在,如果您包含某种条件,即如果代理达到状态 5,代理将被随机移动到任何其他位置,那么您可以返回next_state任意随机数。

长话短说,这next_state取决于环境。