本文使用图像增强来改进 RL 算法。它包含以下段落 - “我们的方法 DrQ 是上面介绍的三个独立正则化机制的结合:
- 输入图像的变换(第 3.1 节)。
- 在 K 个图像变换上平均 Q 目标(等式(1))。
- 在 M 图像变换上平均 Q 函数本身(等式(3))。
我不明白第 2 部分和第 3 部分(等式 1 和 3)是如何进行的,并且非常感谢对其进行一些详细的阐述。
这是方程式 -
本文使用图像增强来改进 RL 算法。它包含以下段落 - “我们的方法 DrQ 是上面介绍的三个独立正则化机制的结合:
我不明白第 2 部分和第 3 部分(等式 1 和 3)是如何进行的,并且非常感谢对其进行一些详细的阐述。
这是方程式 -
等式 1
在正常的 Q-Learning 中,您的目标定义为. 由于您正在训练正则化版本,因此您可以通过对每个图像增强的估计进行平均来构建下一个状态的估计值。将其转化为所有的期望值给定状态的转换,我们需要通过将总目标除以转换数量来对其进行平均.
等式 3
在这里,Q-Function 针对所有图像变换进行了更新。是转换后的图像,即它与但它的亮度增加了0.5。我们在网络输出和 Q-Target 之间的均方误差上拟合我们的动作价值网络通过图像转换和状态的数量平均。