是否有任何经验/理论证据表明状态动作的初始值和状态值通过 MC 方法策略评估和 GLIE 策略改进对 RL 代理的训练(RL 代理分配给访问状态的值)的影响?
例如,考虑Windy Gridworld问题的两种初始化场景:
实现:我已经修改了这个问题以及步罚,以包括一个非期望的终端状态和一个期望的终端状态,它们将分别作为负奖励状态和正奖励状态传送给代理。该实现注意 MC 采样在终端状态结束,并将惩罚/奖励作为状态动作值而不是状态值给出,因为这是一个控制问题。另外,我有5个动作:北,南,东,西和停留。
注意:我不确定这是否会改变问题的目标。在最初的问题中,它是减少到达最后阶段所需的步骤数。
我们将达到期望的最终状态的奖励设置为高于价值函数的随机初始化值的值;例如,我们可以将奖励设置为并用范围内的随机数初始化值
我们将达到期望的最终状态的奖励设置为与价值函数的随机初始化值相当的值;例如,我们可以将奖励设置为并用范围内的随机数初始化值
据我所知,在第一种情况下,算法很容易快速收敛,因为终端奖励状态的奖励非常高,这将使代理试图达到奖励阶段。
在第二种情况下,如果奖励状态被其他高奖励状态包围,这可能不是真的,代理将尝试进入这些状态。
阶跃惩罚确保了智能体最终达到了终端状态,但这会扭曲智能体的路径并严重影响其收敛时间吗?这在大型状态空间中可能是有问题的,因为我们将无法探索整个状态空间,但是探索常数的存在可能会通过进入较大的错误奖励状态而使训练脱轨。我的理解正确吗?