如何根据帧堆栈预测 Q 值

人工智能 q学习 深度学习
2021-10-22 06:48:16

我决定基于从环境中获取原始像素来训练深度 Q 学习代理。我有一个特殊的问题:当我输入帧堆栈时,假设 4 个连续帧,如果动作空间是 6,那么输出是 4 x 6 矩阵。所以哪个是真正的 Q 值?我的意思是,我输入一批帧并输出一批值,问题是这些批值中哪个是真正的 Q 值?

1个回答

您不输出这批 Q 值。需要输入帧堆叠以获得对环境的完全可观察性。在您的情况下,当前帧的输出将是 6 个元素。如果F是一个框架,那么您将堆叠 4 个框架[Fk3,Fk2,Fk1,Fk]并且输出将是帧的 6 个 Q 值Fk.