更新神经网络的不可微奖励函数

人工智能 强化学习 政策梯度 奖励
2021-11-17 19:25:24

在强化学习中,当奖励函数不可微时,使用策略梯度算法来更新网络的权重。论文 Neural Architecture Search with Reinforcement Learning中,他们使用一个神经网络的准确性作为奖励信号,然后选择一种策略梯度算法来更新另一个网络的权重。

我无法将准确度的概念理解为不可微分的奖励函数。我们是否需要找到函数然后检查它在数学上是否不可微分?

我想知道是否可以使用另一个值,例如轮廓分数(在不同的场景中)作为奖励信号?

1个回答

我无法将准确度的概念理解为不可微分的奖励函数。我们是否需要找到函数然后检查它在数学上是否不可微分?

在强化学习(RL)中,奖励函数通常对于任何可学习的参数都是不可微的。事实上,根本不知道函数是很常见的,并应用一种纯粹基于对状态、动作、奖励和下一个状态的许多观察进行采样的无模型学习方法。对于奖励,您不需要知道作为参数函数的奖励函数,但您确实需要知道如何从每次观察中计算它. 这意味着奖励要么作为环境的一部分提供,要么很清楚如何从初始状态、动作或下一个状态计算它。对于创建神经网络的代理然后报告准确性的情况,您可能可以将 NN 训练过程及其结果(包括验证集上的准确性)视为报告回任意奖励信号的“黑匣子”。

在强化学习中,当奖励函数不可微时,使用策略梯度算法来更新网络的权重

策略梯度方法是一大类 RL 方法,通常也是无模型的。或者,基于值的方法是广泛的另一种选择(例如 Q-learning),或者可以与策略梯度方法(例如 Actor-Critic)结合使用。所有这些都可以是无模型的,而且通常是。

除非您想应用基于模型的 RL 方法,否则您无需根据任何参数以显式形式找到奖励函数。即使您确实想使用基于模型的方法,奖励函数也不需要是可微的。

我想知道是否可以使用另一个值,例如轮廓分数(在不同的场景中)作为奖励信号?

是的,这可能是可行的,并且可以与论文类似地工作,前提是您操作的参数与最终结果之间存在某种有意义的联系。

RL 可以作为一种优化受参数向量影响的数值度量的通用方法。这包括通过准确度等不可微指标对神经网络进行间接优化。这里的准确度选择没有什么特别之处,该指标只需要与正在学习的参数相关。

一个问题。由于例如所有参数之间的协方差,使用 RL 的间接学习会产生非常嘈杂的训练数据,并且可能需要许多样本才能通过所有噪声获得清晰的梯度信号并进行有意义的更新。与其他可用的优化方法相比,它可能效率低下 - 但是,即使规则复杂且不可微分,为参数提取梯度的能力也是 RL 的一个很好的特性。