我决定基于从环境中获取原始像素来训练深度 Q 学习代理。我有一个特殊的问题:当我输入帧堆栈时,假设 4 个连续帧,如果动作空间是 6,那么输出是 4 x 6 矩阵。所以哪个是真正的 Q 值?我的意思是,我输入一批帧并输出一批值,问题是这些批值中哪个是真正的 Q 值?
如何根据帧堆栈预测 Q 值
人工智能
q学习
深度学习
2021-10-22 06:48:16
1个回答
您不输出这批 Q 值。需要输入帧堆叠以获得对环境的完全可观察性。在您的情况下,当前帧的输出将是 6 个元素。如果是一个框架,那么您将堆叠 4 个框架并且输出将是帧的 6 个 Q 值.
其它你可能感兴趣的问题