拟合的 Q 迭代算法与问*(小号,一)Q∗(s,a),我们如何在这个算法中使用函数逼近?

人工智能 强化学习 q学习 文件 价值迭代
2021-11-03 07:02:41

我希望得到关于拟合 Q 迭代 (FQI) 的一些说明。

我的研究到目前为止

我读过Sutton 的书(特别是第 6 章到第 10 章)、Ernst 等人和这篇论文

我知道Q(s,a)表示首先采取行动的期望值a从状态s然后永远遵循最优策略。

我尽力理解大状态空间中的函数逼近和 TD(n)。

我的问题

  1. 概念 - 有人可以解释如何从 1 迭代扩展 N 直到停止条件达到最优(Ernst 等人的第 3.5 节)背后的直觉吗?我很难理解这与基本定义有何联系Q(s,a)我在上面说过。

  2. 实施 - Ernst 等人。给出表格形式的伪代码. 但是如果我尝试实现函数逼近形式,这是否正确:

Repeat until stopping conditions are reached:
    - N ← N + 1
    - Build the training set TS based on the function Q^{N − 1} and on the full set of four-tuples F 

    - Train the algorithm on the TS

    - Use the trained model to predict on the TS itself

    - Create TS for the next N by updating the labels - new reward plus (gamma * predicted values )

作为我课程的一部分,我刚刚开始学习 RL。因此,我的理解存在许多空白。希望得到一些善意的指导。

1个回答

1):直觉基于价值迭代的概念,作者在第 504 页提到但没有解释。基本思想是:假设您知道从状态 x 开始并为 n 执行最优策略的价值时间步长,对于每个状态 x。如果您想知道在每个位置运行 n+1 个时间步的最佳策略(及其值),现在很容易计算。来自状态 x 的最优动作是使这个时间步长 (r) 的奖励和从你最终进入的状态执行最优 n 步策略的值的总和最大化(或者如果问题是期望值) '不是确定性的)。

在本文的方法中,您不会显式地计算策略或值(可能是因为它太昂贵了),因此您只需对 n+1 问题的 Q 函数进行近似。

IIRC,只要你的问题有一个折扣因子并且你的函数逼近的误差不是太大,就有证据表明你的政策最终会停止改变-在更新之间,并且将与无限步数的策略保持一致。直观地说,这是因为贴现因子导致一系列奖励收敛。

2):我认为这是正确的。构建训练集时,使用结果建议的操作

Qn1
网络。这是从每个状态开始并以最优策略运行 n-1 步的奖励的近似值。然后你正在学习一个近似值Qn从那,这看起来是正确的。