在“Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels”一文中,方程 1 和 3 描述了什么?

人工智能 强化学习 深度学习 深度学习 图像处理
2021-10-25 06:04:01

本文使用图像增强来改进 RL 算法它包含以下段落 - “我们的方法 DrQ 是上面介绍的三个独立正则化机制的结合:

  1. 输入图像的变换(第 3.1 节)。
  2. 在 K 个图像变换上平均 Q 目标(等式(1))。
  3. 在 M 图像变换上平均 Q 函数本身(等式(3))。

我不明白第 2 部分和第 3 部分(等式 1 和 3)是如何进行的,并且非常感谢对其进行一些详细的阐述。

这是方程式 -

在此处输入图像描述

在此处输入图像描述

1个回答

等式 1

在正常的 Q-Learning 中,您的目标定义为是的=r+γ一个X一个(s+1,一个). 由于您正在训练正则化版本,因此您可以通过对每个图像增强的估计进行平均来构建下一个状态的估计值将其转化为所有的期望值ķ给定状态的转换,我们需要通过将总目标除以转换数量来对其进行平均ķ.

等式 3

在这里,Q-Function 针对所有图像变换进行了更新。F(s一世,v一世,)是转换后的图像,即它与s一世但它的亮度增加了0.5。我们在网络输出和 Q-Target 之间的均方误差上拟合我们的动作价值网络是的一世通过图像转换和状态的数量平均。