我对 A2C / A3C 背后的主要思想的理解是,我们运行一个片段的小片段来估计回报,使用可训练的价值函数来补偿片段中看不见的最后步骤。
虽然我可以看到这如何在具有相对密集奖励的持续任务中发挥作用,您仍然可以从少量经验片段中获得一些有用的即时奖励,但这种方法是否适用于仅在最后提供奖励的情景任务?例如,在一场比赛结束时你只知道输赢的游戏中,使用 A2C / A3C 的方法仍然有意义吗?
我不清楚如果几乎每个经验片段都为零奖励,除了最后一个,算法如何获得任何有用的信号来学习任何东西。例如,这在纯 MC 方法中不会成为问题,除了我们可能需要大量样本这一事实。但是,我不清楚在这种情况下,像 A2C / A3C 那样任意截断剧集片段是个好主意。