在 Ng 等人描述的学徒学习算法中。在通过逆强化学习的学徒学习中,他们提到专家轨迹以以下形式出现. 不过,他们也提到是从分布 D 中得出的。那么所有专家轨迹都必须具有相同的起始状态吗?为什么不能基于单个轨迹计算特征期望?
所有专家轨迹在学徒学习中是否具有相同的起始状态?
人工智能
强化学习
文件
奖励
学徒学习
2021-11-08 17:55:18
1个回答
好吧,我想通了。轨迹不必具有相同的起始状态,因为是从分布 D 中得出的(在论文中提到)。一直很困惑,因为 github 上的许多代码实现都关注从同一状态开始的轨迹。
希望这对大家有帮助!
其它你可能感兴趣的问题