观察结果如何存储在对状态进行编码的 RNN 中?

人工智能 强化学习 循环神经网络 文件
2021-11-16 01:20:50

我对使用 RNN 对状态进行编码的 RL 系统中的观察结果感到有些困惑。我读了几篇像thisthis这样的论文。如果我要使用一系列原始观察(或特征)作为 RNN 的输入来编码系统的状态,我无法在情节中间更改我的网络的权重。那是对的吗?否则,当权重改变时,隐藏状态向量会不同。

这是否意味着在 RL 中使用 RNN 必须在更改权重之前存储整个剧集?

那么如何将 RNN 中的隐藏状态考虑到 RL 中呢?有没有关于 RNN-RL 的好教程?

1个回答

这个研究问题似乎在此处(第 3 节)进行了更详细的分析 - https://openreview.net/pdf?id=r1lyTjAqYX

通常,将一个序列作为状态输入 RNN 以计算最终的隐藏状态。然后可以问,RNN 应该以什么初始状态为种子?本文分析了关于种子的三种方法——

  • 零初始化:当RNN初始化为零状态时
  • 老化:当序列前面有一些 RNN 观察结果以学习良好的初始状态时
  • 存储初始隐藏状态:当存储序列开头的隐藏状态时