人工智能 - 如何根据帧堆栈预测 Q 值 - 吾爱随笔录

人工智能 q学习深度学习

2021-10-22 06:48:16

我决定基于从环境中获取原始像素来训练深度 Q 学习代理。我有一个特殊的问题：当我输入帧堆栈时，假设 4 个连续帧，如果动作空间是 6，那么输出是 4 x 6 矩阵。所以哪个是真正的 Q 值？我的意思是，我输入一批帧并输出一批值，问题是这些批值中哪个是真正的 Q 值？

1个回答

您不输出这批 Q 值。需要输入帧堆叠以获得对环境的完全可观察性。在您的情况下，当前帧的输出将是 6 个元素。如果 $F$ 是一个框架，那么您将堆叠 4 个框架 $[F_{k-3}, F_{k-2}, F_{k-1}, F_k]$ 并且输出将是帧的 6 个 Q 值 $F_k$ .

其它你可能感兴趣的问题