我最近一直在阅读A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning,我无法理解他们所说的代理损失函数是什么意思。
论文中的一些相关符号 -
- =如果我们遵循政策,状态的平均分布为了时间步长
- = 我们正在考虑的任务在状态 s 中执行动作 a 的预期直接成本(假设有界 [0,1]
- 是预期的直接成本在.
- 是执行策略的总成本为了时间步长
在模仿学习中,我们不一定知道或观察到真实的成本对于特定的任务。相反,我们观察专家的演示并寻求约束 对于任何成本函数基于有多好模仿专家的策略. 表示我们最小化的观察到的代理损失函数,而不是. 例如,可能是预期的0-1损失关于处于状态,或平方/铰链损失关于在. 重要的是,在许多情况下,和可能是相同的函数——例如,如果我们有兴趣优化学习者预测专家选择的动作的能力。
我不明白代理损失与真实成本有何不同,以及两者相同的可能情况是什么。如果有人可以对此有所了解,那就太好了。谢谢!