人工智能 - 在“Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels”一文中，方程 1 和 3 描述了什么？ - 吾爱随笔录

在“Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels”一文中，方程 1 和 3 描述了什么？

人工智能强化学习深度学习深度学习图像处理

2021-10-25 06:04:01

本文使用图像增强来改进 RL 算法。它包含以下段落 - “我们的方法 DrQ 是上面介绍的三个独立正则化机制的结合：

输入图像的变换（第 3.1 节）。
在 K 个图像变换上平均 Q 目标（等式（1））。
在 M 图像变换上平均 Q 函数本身（等式（3））。

我不明白第 2 部分和第 3 部分（等式 1 和 3）是如何进行的，并且非常感谢对其进行一些详细的阐述。

这是方程式 -

1个回答

等式 1

在正常的 Q-Learning 中，您的目标定义为 $y_t = r_t + \gamma \mathrm{max_a}Q(s_{t+1}, a)$ . 由于您正在训练正则化版本，因此您可以通过对每个图像增强的估计进行平均来构建下一个状态的估计值。将其转化为所有的期望值 $k$ 给定状态的转换，我们需要通过将总目标除以转换数量来对其进行平均 ${k}$ .

等式 3

在这里，Q-Function 针对所有图像变换进行了更新。 $f(s_i, v_{i,m})$ 是转换后的图像，即它与 $s_i$ 但它的亮度增加了0.5。我们在网络输出和 Q-Target 之间的均方误差上拟合我们的动作价值网络 $y_i$ 通过图像转换和状态的数量平均。

其它你可能感兴趣的问题

上一篇如果它们的角色相似，为什么不将训练集和验证集合二为一呢？下一篇无法找到适合神经网络的简单函数