我可以使用我之前对状态动作值的估计作为 GLIE-Monte Carlo Control 中的初始化吗?

人工智能 强化学习 蒙特卡罗方法
2021-11-09 22:24:58

我正在尝试实现基于表格的 GLIE Monte-Carlo 学习算法。所以我重复n次:

  1. 使用我以前的策略创建观察结果πn1(s)
  2. 使用 1 中生成的观察值,使用 monte-carlo 更新规则更新我的状态动作值:Qn(st,at)=Qn(st,at)+1/N(st,at)×(GtQn(St,at))
  3. 将我的政策更新为πn使用 epsilon-geedy 改进ϵ=1/(n+1).

在第 2 步中,我需要决定初始估计Q~n. 这是一个不错的选择吗Q~n=Qn1?

1个回答

在第 2 步中,我需要决定初始估计Q~n. 这是一个不错的选择吗Q~n=Qn1?

是的,这是一个常见的选择。更新表实际上很常见Q~到位,每个步骤没有任何单独的初始化。估计和策略改进的单独阶段更容易分析理论上的正确性,但在实践中进行更新可以更快,因为新信息在可用时立即使用。

根据政策的变化方式以及先前估计的准确程度,这可以使估计更接近下一步的收敛。通常,与您可以设置的任何固定或随机初始化方案相比,以前的估计值更接近新目标。