策略学习是指将代理状态映射到动作以最大化奖励。线性策略,例如在增强随机搜索论文中使用的策略,是指学习状态和奖励之间的线性映射。
当整个状态在每个时间步发生变化时,例如在Continuous Mountain Car OpenAI Gym中,汽车的位置和速度会在每个时间步发生变化。
但是,假设我们还想传达一个或多个目标的恒定位置。所谓“恒定”,我的意思是在训练集中不会改变,但可能会在不同集之间改变。例如,如果Mountain Car的左右两侧各有一个目标。
除了将两个目标的位置附加到状态向量之外,是否有示例说明如何从环境中传达此常量/静态信息?静态/恒定状态可以与随每个动作变化的状态区分开来吗?