了解优势功能

数据挖掘 强化学习 q学习
2021-10-12 10:42:36

“优势更新”解释为改进 Q-learning 的方法的论文使用以下内容作为其动机。

Q 学习每次更新所需的计算量相对较少,但考虑所需更新的数量如何随噪声或时间步长 At 的变化而变化是很有用的。一个重要的考虑因素是相同状态的 Q 值之间的关系,以及相同动作的 Q 值之间的关系。Q 值 Q(x,u1) 和 Q(x,u2) 表示从状态 x 开始并分别执行动作 u1 或 u2 时收到的长期强化,然后是最佳动作。在具有连续状态和动作的典型强化学习问题中,通常情况下,在一长串最优动作中执行一个错误动作对总强化几乎没有影响。在这种情况下,Q(x,u1) 和 Q(x,u2) 将具有相对接近的值。另一方面,相距甚远的国家的价值观通常不会彼此接近。因此,对于 x1 和 x2 的某些选择,Q(x1,u) 和 Q(x2.u) 可能会有很大差异。因此,如果表示 Q 函数的网络即使出现很小的错误,从它导出的策略也会有很大的错误。随着时间步长持续时间 dt 接近零,序列中一个错误动作的惩罚减少,给定状态下不同动作的 Q 值变得更接近,并且隐含策略变得对噪声或函数逼近误差更加敏感。在限制中,对于连续时间,Q 函数不包含有关策略的信息。因此,当时间步长较短时,由于对错误的敏感性,Q-learning 预计会学习缓慢,并且无法在连续时间内学习。这个问题不是任何特定函数逼近系统的属性;相反,它是 Q 值定义中固有的。

我如何在数学上证明这种效应发生了?

1个回答

1. 为什么给定状态下不同动作的 q 值非常接近?

我将用一个小例子来解释这一点。

考虑一下“Catch”游戏。水果(圆形)不断从屏幕顶部(垂直)落下,代理(正方形)只需将自己与水果对齐即可获得奖励。它可以采取三种动作:向左移动、停留、向右移动。假设a2是指不移动桨,a3是指向右移动,a1是指向左移动。屏幕上的图像将用作 MDP 形式主义中的状态。

在此处输入图像描述

假设我们采取了次优动作 a3(向右移动)并移动到下一个状态。那么该状态下的最佳动作将是向左移动(a1),然后执行最佳动作。因此,动作 a2 和 a3 之间的唯一成本差异将是浪费了两个步骤来返回和返回。

如果采取次优行动没有负回报,那么智能体就没有选择最优行动的动机。因此,采取次优行动的负面回报应该足够高,以至于不鼓励代理这样做。我试图用数学方法把这种直觉放在这里。这可以解释为什么 q 值彼此如此接近。

那么,最优 Q* 函数满足以下条件:

在此处输入图像描述

2.这个差距有界限吗? 我展示的界限是近似的。这种差异的技术术语是“行动差距”。此处提供了更好的分析:增加行动差距:强化学习的新运算符

3. 为什么对于给定的动作,不同状态的 q 值非常接近?

这应该是相当明显的。考虑两种不同的情况。在第一个中,水果从左上角落下,在第二个中,水果从右上角落下。两种情况下的代理都处于中心位置。然后,考虑向左移动的动作。此操作将在第一种情况下给出高 q 值,在第二种情况下给出低 q 值。

4. 如何解决动作间隙问题?

让我们定义一个状态的平均奖励为 V. V大约是给定状态下所有动作的 Q 值的平均值。如果我们现在减去这个V 从每个 Q值,我们得到一个数量,该数量描述了该动作与所有动作的平均值相比有多好。这被称为行动的优势。从某种意义上说,这大约是行动差距。因此,我们不是预测 q 值,而是直接预测动作间隙本身。

链接:A3C纸