数据挖掘 - 在深度强化学习中设计神经网络时是否有经验法则？ - 吾爱随笔录

在深度强化学习中设计神经网络时是否有经验法则？

数据挖掘机器学习神经网络强化学习

2022-02-17 01:22:00

在深度学习中，我们可以用损失函数值来评估模型的性能，用K-fold交叉验证等来提高模型的性能。但是我们如何设计和调整用于深度强化学习的神经网络呢？我们可以通过奖励等来评估强化学习算法本身的性能，但是我们如何确定强化学习算法中使用的神经网络是好是坏呢？

3个回答

强化学习的过程已经意味着你有一个可以使用的基础模型，这就是你要强化的东西。所以，大概，那个底层模型已经很好了，否则你不会使用它，对吧？

强化学习的重点是将您的（功能）模型引入新信息和/或不断变化的条件。强化学习不会把一个坏模型变成一个好的模型。如果您的基础模型表现不令您满意，那么您应该返回模型设计/选择阶段；在那种情况下，强化学习不会帮助你。

我们可以通过奖励等来评估强化学习算法本身的性能，但是我们如何确定强化学习算法中使用的神经网络是好是坏呢？

神经网络的“优点”正是通过来自环境的奖励信号传达给我们的。毕竟，神经网络（至少间接地）决定了智能体采取的行动。任何次优行为都会导致较低的奖励。该信息通过正在使用的 RL 算法反向传播到神经网络的权重。

例如，如果我们使用价值网络并且我们试图最小化经验回报和预测回报之间的误差，那么我们可以对参数执行随机梯度下降 $w$

\begin{aligned} w_{t + 1} & ≐ w_{t} - \frac{1}{2} α \nabla_{w_{t}} {[G_{t} - \hat{v} (S_{t}, w_{t})]}^{2} \\ = w_{t} + α [G_{t} - \hat{v} (S_{t}, w_{t})] \nabla_{w_{t}} \hat{v} (S_{t}, w_{t}) \end{aligned}

$\begin{align}w_{t+1} &\doteq w_t - \frac{1}{2}\alpha\nabla_{w_t}\left[G_t-\hat{v}(S_t,w_t)\right]^2\\ &= w_t + \alpha\left[G_t-\hat{v}(S_t,w_t)\right]\nabla_{w_t}\hat{v}(S_t,w_t) \end{align}$

（一旦神经网络相当擅长预测其行为的结果，它就可以开始通过广义策略迭代来优化其行为。）

强化学习 (RL) 模型中使用的神经网络可以通过随时间的奖励量来评估。累积更多奖励的神经网络优于另一个在相同时间内累积更少奖励的神经网络。

RL 的实验和改进神经网络的过程通常需要更长的时间，因为 RL 的学习过程通常更长。

其它你可能感兴趣的问题

上一篇处理对同一时间戳有多个观测值的时间序列数据下一篇静态图与动态图