正如本线程中所讨论的,您可以通过将所有非法移动的概率重新设置为零并重新归一化输出向量来处理强化学习中的无效移动。
在反向传播中,我们应该使用哪个概率矩阵?原始输出概率,还是后处理向量?
正如本线程中所讨论的,您可以通过将所有非法移动的概率重新设置为零并重新归一化输出向量来处理强化学习中的无效移动。
在反向传播中,我们应该使用哪个概率矩阵?原始输出概率,还是后处理向量?
我对这个领域也很陌生,但我认为你应该使用标准化输出进行反向传播。一般来说,你会想要反向传播你在前向传播中所做的所有计算,那么为什么你要在你的后向传播中排除标准化的步骤呢?这本质上会使重整化无效(不同的损失值但没有不同的模型权重更新)。
例如,在策略梯度中,您通过所选操作的对数概率进行反向传播。在前向传播中,概率的采样(确定选择哪个动作)不受重整化的影响(您最终可能会在损失函数中得到不同的损失值)。但是,与此相比,在后向传播中,您需要对数概率的实际值来计算更新模型权重的梯度。
所以(我认为)归一化主要是为了反向传播来获得“重新归一化”的梯度。并且在具有更多/更少允许动作的状态之间没有不平衡的梯度。