所有专家轨迹在学徒学习中是否具有相同的起始状态?

人工智能 强化学习 文件 奖励 学徒学习
2021-11-08 17:55:18

在 Ng 等人描述的学徒学习算法中。通过逆强化学习的学徒学习中,他们提到专家轨迹以以下形式出现{s0i,s1i...}i=1m. 不过,他们也提到s0是从分布 D 中得出的。那么所有专家轨迹都必须具有相同的起始状态吗?为什么不能基于单个轨迹计算特征期望?

1个回答

好吧,我想通了。轨迹不必具有相同的起始状态,因为s0是从分布 D 中得出的(在论文中提到)。一直很困惑,因为 github 上的许多代码实现都关注从同一状态开始的轨迹。

希望这对大家有帮助!