A2C 或 A3C 是否适合仅在剧集结束时提供奖励的剧集任务?

人工智能 强化学习 演员批评方法
2021-10-21 12:39:38

我对 A2C / A3C 背后的主要思想的理解是,我们运行一个片段的小片段来估计回报,使用可训练的价值函数来补偿片段中看不见的最后步骤。

虽然我可以看到这如何在具有相对密集奖励的持续任务中发挥作用,您仍然可以从少量经验片段中获得一些有用的即时奖励,但这种方法是否适用于仅在最后提供奖励的情景任务?例如,在一场比赛结束时你只知道输赢的游戏中,使用 A2C / A3C 的方法仍然有意义吗?

我不清楚如果几乎每个经验片段都为零奖励,除了最后一个,算法如何获得任何有用的信号来学习任何东西。例如,这在纯 MC 方法中不会成为问题,除了我们可能需要大量样本这一事实。但是,我不清楚在这种情况下,像 A2C / A3C 那样任意截断剧集片段是个好主意。

1个回答

我对 A2C / A3C 背后的主要思想的理解是,我们运行一个片段的小片段来估计回报,使用可训练的价值函数来补偿片段中看不见的最后步骤。

这似乎相当准确。需要注意的重要一点是,可训练的价值函数被训练来预测价值(具体来说,在 A2C / A3C 的情况下,状态-动作对的优势值,其中第一个 A 代表“优势”)。这些价值估计可以直观地理解为对长期(贴现)奖励的估计,它们不仅仅是短期奖励。

所以是的,最初当智能体只在长轨迹的末端观察到奖励时,只有接近末端的状态-动作对才会获得该奖励的功劳。例如,当使用n-step 返回,大约只有最后一个n状态-动作对获得信用。然而,在下一集中,当你还在n远离终点,然后该更新可以再次传播回来n进一步了解状态-动作对的历史。

我上面的解释非常不正式......我跳过了各种细微差别。使用函数逼近可能会进一步加速奖励观察在状态-动作对空间中的传播,当然实际上事情不会像传播得到那样“干净”n与上一集相比,下一集会走得更远,因为选择的动作和随机状态转换可能会有所不同……但希望它能传达这个想法。