你能解释一下策略梯度方法以及对策略进行参数化意味着什么吗?我正在阅读关于强化学习的 Sutton 和 Barto 的书,但不太了解它是什么,你能举一些例子吗?
在策略梯度方法中参数化策略意味着什么?
人工智能
强化学习
政策梯度
2021-11-13 19:29:01
1个回答
在 RL 的上下文中,对于要参数化的策略,它通常意味着我们显式地对策略进行建模,并且在策略梯度方法中很常见。
考虑基于价值的方法,例如 Q-learning,我们的策略通常类似于-贪婪,我们使用以下策略选择我们的行动
在这里,我们将策略参数化为但是学习是通过学习 Q 函数来完成的。当我们参数化策略时,我们将显式建模通过以下公式:
现在通过学习参数来完成学习,该参数通过执行形式
\ boldsymbol
请注意,根据 Sutton 和 Barto 教科书,是 \Delta J(\boldsymbol{\theta}_t) 的噪声随机估计,前者近似后者在期待中。
该策略可以以任何方式参数化,只要它相对于参数是可微的。通常在 Deep RL 中,策略被参数化为神经网络,因此将是网络的权重。
其它你可能感兴趣的问题