模仿学习中所需的专家演示次数取决于什么?

人工智能 强化学习 学徒学习 逆rl 模仿学习
2021-10-19 04:30:48

我刚刚阅读了以下几点关于模仿学习所需的专家演示的数量,我想澄清一下。出于上下文的目的,我将在这篇文章中使用线性奖励函数(即奖励可以表示为状态特征向量分量的加权和)

所需专家演示的数量与奖励函数中的特征数量成正比

我认为这一点都不明显——为什么是真的?直觉上,我认为随着特征数量的增加,问题的复杂性也会增加,所以我们可能需要更多的数据来更好地估计专家的奖励函数。还有更多吗?

所需的专家演示次数不取决于 -

  • 专家最优策略的复杂性π
  • 状态空间的大小

我看不出专家最优策略的复杂性如何在这里发挥作用——这可能就是为什么它不会影响我们需要的专家演示数量的原因;但我们首先如何量化政策的复杂性

另外,我认为专家演示的数量应该取决于状态空间的大小例如,如果训练和测试分布不匹配,我们无法进行行为克隆而不陷入问题,在这种情况下,我们使用DAGGER 算法重复查询专家并做出更好的决策(采取更好的行动)。我觉得更大的状态空间意味着我们将不得不更频繁地查询专家,即找出专家在几个状态下的最佳动作。

我很想知道每个人对此的想法——专家演示的数量对上述因素的依赖性,如果有的话,还有其他因素谢谢!


资料来源:幻灯片 20/75

1个回答

您的问题的答案可以在介绍最大边距投影模仿学习 (IL) 算法的原始论文中找到:Apprenticeship Learning via Inverse Reinforcement Learning(Abbel 和 Ng,2004,ICML)。具体来说,定理 1(第 4 节,第 4 页)指出

让一个MDPR, 特征ϕ:S[0,1]k, 和任何ϵ>0被给予。然后学徒学习算法(最大边距和投影版本)将以t(i)ϵ最多之后

n=O(k(1γ)2ϵ2logk(1γ)ϵ)
迭代。

这里k是特征向量的维度,因此很明显,这些算法终止所需的迭代次数与k. 该定理的证明可以在同一篇论文的附录 A 中找到(所有其他术语都在论文中定义,您应该阅读以了解所有细节)。当然,这个结果(仅)适用于这些特定的 IL 算法(幻灯片的作者 Abbel 所指的算法)。另请参阅同一篇论文的定理 2 和实验部分(特别是图 4,它显示了作为轨迹数量的函数的性能)。 这些幻灯片很好地概述了本文的内容,因此我建议您也阅读它们。