强化学习中的奖励与监督学习问题中的标签有何不同?

人工智能 强化学习 比较 奖励 监督学习
2021-11-11 17:43:31

强化学习中使用的即时奖励的概念与我们在监督学习问题中发现的标签概念有何不同?

1个回答

强化学习 (RL) 中的奖励与监督学习 (SL) 标签完全不同,但可以与之间接相关。

在 RL 控制设置中,您可以想象您有一个数据预言机,它为您提供 SL 训练示例和标签对xi,yi在哪里xi代表一个状态和yi表示在该状态下为了最大化预期回报而采取的正确行动。为简单起见,我将使用Gt=k=1γkRt+k+1在这里返回(在哪里GtRt是随机变量),还有其他定义,但后面的论点对它们并没有太大变化。

您可以使用 oracle 将 RL 训练过程简化为 SL,创建策略函数π(s):SA从 oracle 输出的数据集中学习。这清楚地将 SL 与 RL 联系起来,但是如何xi,yi从 SL 涉及到st,at在奖励值方面来自 RL?

状态可以直接关联(作为输入):

xist

如果您想了解奖励是如何涉及的,则策略功能的操作更为间接:

yiπ(st)=argmaxaEAπ[k=1γkRt+k+1|St=st,At=a]

请注意,预言机由最优策略函数表示π(st),并且期望取决于状态和动作的开始条件以及从那时起遵循最优策略(这就是Aπ代表)。

在实践中,当开始 RL 时最优策略函数是未知的,因此学习过程不能简化为 SL 问题。但是,在某些情况下,您可以通过创建由问题专家做出的行动选择数据集来接近。在这种情况下,类似的关系适用——标签(采取何种行动)和即时奖励是不同的东西,但可以通过注意到专家行为接近于argmax超过预期未来奖励总额的行动。

另一种查看差异的方法:

  • 在 SL 中,来自标签的信号是一个指令——“关联这两个值”。数据由其他一些独立的过程提供给学习过程,可以直接从

  • 在 RL 中,来自奖励的信号是一个结果——“在上下文中,这是你刚刚所做的事情的价值”,需要间接学习。数据不是与学习过程分开提供的,而是必须由它主动收集——决定从哪个状态、动作对学习是代理学习任务的一部分