如何预测深度强化学习中的优势价值

数据挖掘 机器学习 深度学习 神经网络 强化学习 预言
2021-10-03 08:05:27

我目前正在研究一系列强化算法:https ://github.com/lhk/rl_gym

对于深度 q 学习,您需要计算网络应该预测的 q 值。有很多策略:蒙特卡洛、时间差、TD(lambda)、...基本上你可以在你展望未来的步数和你观察的方差之间进行权衡。

除了预测 q 值,还可以预测优势。哪里A(s, a) = Q(s, a) - V(s)因此,优势描述了您获得的超出预期的数量。在这里被讨论和激励。

为了预测 q 值,您必须平衡方差与展望未来的步数。对于优势,有一种称为广义优势估计 (GAE) 的方法,它以一种非常简洁的方式做到这一点: https ://arxiv.org/abs/1506.02438

我想预测这些优势,而不是 q 值。这绝不是一个新想法,显然,优势学习可以胜过 q-learning:http ://www.cs.cmu.edu/afs/cs.cmu.edu/project/learn-43/lib/photoz/ .g/web/glossary/advantage.html

上面的链接是关于优势学习的一个非常小的摘要。重要的部分是:

优势学习 [...] 只需要存储 A(x,u) 优势

但我该怎么做呢?GAE 论文假设我可以预测每个状态的值。我需要这些值来计算优势。据我所知,我必须选择:

  • 只预测优势,然后以某种方式计算优势的价值。据我所知,我们需要两个:q值、优势、值。因此,如果我不想预测值,我必须预测 q 值。这是原来的问题。我在某处读到最大的优势是价值,但这对我来说毫无意义,我再也找不到链接了。

  • 预测优势和价值。如果我这样做,实施 GAE 并训练网络以正确预测优势将很简单。但是我会用什么作为价值的训练目标呢?如果我使用 GAE 公式来获得优势,那么它看起来未来还有很多步骤。将这些优势的计算基于我在一步前瞻上训练的价值函数近似值似乎是荒谬的。

我的问题不是如何设置函数逼近器,或者什么网络类型非常适合这个。我的问题是:价值函数的目标值是什么,我可以将其提供给我的函数逼近器。我如何实际训练它?

0个回答
没有发现任何回复~