在 DQN 中,Q 值的函数逼近对于相关更新是不稳定的。在具有基线的策略梯度中,策略的价值函数不会受到相同的相关更新的困扰吗?
例如,在使用基线算法的 REINFORCE 中,更新按时间顺序应用于每个时间步。我知道在策略梯度中,目标是估计策略的价值,而不一定是整个状态空间;然而,在随机环境和/或随机策略下,并非所有状态都以相同的概率进行采样,从而导致过度拟合到特定轨迹,这意味着价值函数将不能用作策略其他轨迹的基线。是否有算法在拟合数据和/或收集成批的轨迹然后像在 DQN 中那样从批次中随机抽样之前对轨迹进行洗牌?