人工智能 - A2C 或 A3C 是否适合仅在剧集结束时提供奖励的剧集任务？ - 吾爱随笔录

A2C 或 A3C 是否适合仅在剧集结束时提供奖励的剧集任务？

人工智能强化学习演员批评方法

2021-10-21 12:39:38

我对 A2C / A3C 背后的主要思想的理解是，我们运行一个片段的小片段来估计回报，使用可训练的价值函数来补偿片段中看不见的最后步骤。

虽然我可以看到这如何在具有相对密集奖励的持续任务中发挥作用，您仍然可以从少量经验片段中获得一些有用的即时奖励，但这种方法是否适用于仅在最后提供奖励的情景任务？例如，在一场比赛结束时你只知道输赢的游戏中，使用 A2C / A3C 的方法仍然有意义吗？

我不清楚如果几乎每个经验片段都为零奖励，除了最后一个，算法如何获得任何有用的信号来学习任何东西。例如，这在纯 MC 方法中不会成为问题，除了我们可能需要大量样本这一事实。但是，我不清楚在这种情况下，像 A2C / A3C 那样任意截断剧集片段是个好主意。

1个回答

我对 A2C / A3C 背后的主要思想的理解是，我们运行一个片段的小片段来估计回报，使用可训练的价值函数来补偿片段中看不见的最后步骤。

这似乎相当准确。需要注意的重要一点是，可训练的价值函数被训练来预测价值（具体来说，在 A2C / A3C 的情况下，状态-动作对的优势值，其中第一个 A 代表“优势”）。这些价值估计可以直观地理解为对长期（贴现）奖励的估计，它们不仅仅是短期奖励。

所以是的，最初当智能体只在长轨迹的末端观察到奖励时，只有接近末端的状态-动作对才会获得该奖励的功劳。例如，当使用 $n$ -step 返回，大约只有最后一个 $n$ 状态-动作对获得信用。然而，在下一集中，当你还在 $n$ 远离终点，然后该更新可以再次传播回来 $n$ 进一步了解状态-动作对的历史。

我上面的解释非常不正式......我跳过了各种细微差别。使用函数逼近可能会进一步加速奖励观察在状态-动作对空间中的传播，当然实际上事情不会像传播得到那样“干净” $n$ 与上一集相比，下一集会走得更远，因为选择的动作和随机状态转换可能会有所不同……但希望它能传达这个想法。

其它你可能感兴趣的问题

上一篇金融服务中使用了哪些强化算法？下一篇有没有办法理解句子的类型？