简而言之,模仿学习就是向专家学习。假设我有一个基于专家行为的带有标签的数据集。我使用一个简单的二元分类器算法来评估它是好的专家动作还是坏的专家动作。
这种二元分类与模仿学习有何不同?
模仿学习与强化学习相关,但在这种情况下,它看起来更像是一个基本的分类问题。
模仿学习和专家分类有什么区别?
我很困惑,因为模仿学习与强化学习有关,而分类与监督学习有关。
简而言之,模仿学习就是向专家学习。假设我有一个基于专家行为的带有标签的数据集。我使用一个简单的二元分类器算法来评估它是好的专家动作还是坏的专家动作。
这种二元分类与模仿学习有何不同?
模仿学习与强化学习相关,但在这种情况下,它看起来更像是一个基本的分类问题。
模仿学习和专家分类有什么区别?
我很困惑,因为模仿学习与强化学习有关,而分类与监督学习有关。
模仿学习是应用于 RL 设置的监督学习。
在任何一般的 RL 算法(如 Q-learning)中,学习都是在奖励函数的基础上完成的。但是,考虑一个场景,您可以使用表格形式的最佳策略,将每个状态映射到每个操作。在这种情况下,您不会关心收到的奖励 - 相反,您只需进行表查找来决定最佳操作。
这种情况在大多数情况下是不切实际的,因为最优策略的表太大了。但是,如果表中有足够的条目,则可以使用通用函数逼近器(例如神经网络)来找到最佳动作。同样,您不需要查看奖励,而只需查看状态动作映射。除此之外,我不知道模仿学习的详细信息,但我怀疑在离散动作的情况下(例如国际象棋、围棋),它将使用交叉熵目标进行训练,这是典型的分类任务。
我怀疑它在 RL 设置中具有不同名称的原因是因为这与传统 RL 算法的工作方式不同。此外,RL 的大部分思维都受到日常交互/生物学的启发。想想我们如何学习驾驶,或踢足球等运动。通常会有一个教练告诉你在不同的条件下采取什么行动,然后你模仿这些行动。