人工智能 - 所有专家轨迹在学徒学习中是否具有相同的起始状态？ - 吾爱随笔录

所有专家轨迹在学徒学习中是否具有相同的起始状态？

人工智能强化学习文件奖励学徒学习

2021-11-08 17:55:18

在 Ng 等人描述的学徒学习算法中。在通过逆强化学习的学徒学习中，他们提到专家轨迹以以下形式出现 $\{s_0^i, s_1^i\, ...\}_{i=1}^m$ . 不过，他们也提到 $s_0$ 是从分布 D 中得出的。那么所有专家轨迹都必须具有相同的起始状态吗？为什么不能基于单个轨迹计算特征期望？

1个回答

好吧，我想通了。轨迹不必具有相同的起始状态，因为 $s_0$ 是从分布 D 中得出的（在论文中提到）。一直很困惑，因为 github 上的许多代码实现都关注从同一状态开始的轨迹。

希望这对大家有帮助！

其它你可能感兴趣的问题

上一篇批量和小批量梯度体面有什么区别？下一篇需要按比例对图像进行评分的问题类型是什么？