我刚刚阅读了以下几点关于模仿学习所需的专家演示的数量,我想澄清一下。出于上下文的目的,我将在这篇文章中使用线性奖励函数(即奖励可以表示为状态特征向量分量的加权和)
所需专家演示的数量与奖励函数中的特征数量成正比。
我认为这一点都不明显——为什么是真的?直觉上,我认为随着特征数量的增加,问题的复杂性也会增加,所以我们可能需要更多的数据来更好地估计专家的奖励函数。还有更多吗?
所需的专家演示次数不取决于 -
- 专家最优策略的复杂性
- 状态空间的大小
我看不出专家最优策略的复杂性如何在这里发挥作用——这可能就是为什么它不会影响我们需要的专家演示数量的原因;但我们首先如何量化政策的复杂性?
另外,我认为专家演示的数量应该取决于状态空间的大小。例如,如果训练和测试分布不匹配,我们无法进行行为克隆而不陷入问题,在这种情况下,我们使用DAGGER 算法重复查询专家并做出更好的决策(采取更好的行动)。我觉得更大的状态空间意味着我们将不得不更频繁地查询专家,即找出专家在几个状态下的最佳动作。
我很想知道每个人对此的想法——专家演示的数量对上述因素的依赖性,如果有的话,还有其他因素。谢谢!
资料来源:幻灯片 20/75