强化学习中的自举和抽样有什么区别?

数据挖掘 强化学习 术语 不同之处
2022-02-20 05:17:31

我遇到了 David Silver 的幻灯片,其中包含“引导”和“抽样”这两个术语。是否有任何现实的例子可以帮助我更好地理解这些概念。

2个回答

我将尝试从概念上而非技术上回答这个问题,以便您了解 RL 中的机制。

  • Bootstrapping:当你根据另一个估计来估计某事时。例如,在 Q-learning 的情况下,当您通过添加校正项时会发生这种情况,这是所有动作中动作值的最大值下一个状态。本质上,您是通过使用对未来 Q 的估计来估计您当前的行动价值 Q。尼尔在这里详细回答了这个问题。rtmaxaQ(s,a)

  • 采样:将样本想象为函数的实现(不同的值)。很多时候,很难估计或提出分析表达式来生成您的观察结果的基本过程。但是,采样值可以帮助您确定底层生成机制的许多特征,甚至对其属性进行假设。在 RL 中采样可以有多种形式。例如,Q 学习是最优动作值函数(贝尔曼方程)的基于采样的点估计。在您的代理一无所知的世界中,您不能使用动态编程来确定每个状态的预期奖励。因此,您需要从您的世界中抽取“经验”并估计来自任何状态的预期奖励。

希望这可以帮助!

  • Bootstrapping只需要一个转换或一个元组(状态、动作、下一个状态、奖励)来执行值(Q 值)更新;因此,学习可以在没有完整的过渡情节的情况下发生。这用于 Q-learning 类型的递归。由于我们不会等待完整的剧集进行更新,因此游戏可以与学习交织在一起。在这种学习中,我们可能有一个随机策略(比如 epsilon greed),我们使用下一个状态的最大 Q 值来更新当前的 Q 值,但我们可能不必采取以下行动:当我们到达下一个状态时,实际上最大化了 Q 函数。因此,我们将 Q-learning 称为离策略方法,因为学习不受策略指导。

  • 采样需要多次转换,甚至需要一个完整的情节(从初始状态到终止状态的转换序列)才能执行更新。由于我们希望学习一个策略,并且更新是针对单个剧集完成的,因此我们必须在整个剧集中遵循相同的策略,然后才能对其进行改进(或更新)。这称为策略迭代,用于蒙特卡洛学习,它是在策略上的,因为策略指导学习过程。因为情节必须在更新完成之前结束,所以如果情节包含如此多的过渡,学习将非常缓慢;因此该方法不能用于非情节任务(如无限视野的游戏)。