在策略梯度方法中参数化策略意味着什么?

人工智能 强化学习 政策梯度
2021-11-13 19:29:01

你能解释一下策略梯度方法以及对策略进行参数化意味着什么吗?我正在阅读关于强化学习的 Sutton 和 Barto 的书,但不太了解它是什么,你能举一些例子吗?

1个回答

在 RL 的上下文中,对于要参数化的策略,它通常意味着我们显式地对策略进行建模,并且在策略梯度方法中很常见。

考虑基于价值的方法,例如 Q-learning,我们的策略通常类似于ϵ-贪婪,我们使用以下策略选择我们的行动

π(a|s)={argmaxaQ(s,a)with probability 1ϵ;random actionwith probability ϵ.
在这里,我们将策略参数化为ϵ但是学习是通过学习 Q 函数来完成的。当我们参数化策略时,我们将显式建模π通过以下公式: 现在通过学习参数来完成学习,该参数通过执行形式 \ boldsymbol
π(s|a,θ)=P(At=a|St=s,θt=θ).
θJ(θ)
θt+1=θt+αΔJ(θt)^.

请注意,根据 Sutton 和 Barto 教科书,是 \Delta J(\boldsymbol{\theta}_t) 的噪声随机估计,前者近似后者在期待中。ΔJ(θt)^ΔJ(θt)

该策略可以以任何方式参数化,只要它相对于参数是可微的。通常在 Deep RL 中,策略被参数化为神经网络,因此将是网络的权重。θ