deepmind 的 Atari 游戏 AI 是如何工作的?

人工智能 深度神经网络 深度学习 卷积神经网络 赌博
2021-11-08 05:42:27

我知道 deepmind 在其 Atari 游戏 AI 中使用了深度 Q 学习 ( DQN )。它使用卷积神经网络Q(s,a)(CNN)从像素而不是 Q 表进行近似。我想知道 DQN 如何将输入转换为动作。CNN 有多少输出?他们是如何训练神经网络进行预测的?

以下是我认为在 DQN 内部发生的步骤:

1)一张游戏图片(一个状态)作为输入值发送到CNN

2) CNN 将输出预测为动作(例如:左、右、射击等)

3)模拟器应用预测的动作并移动到新的游戏状态

4)重复步骤1

我上述逻辑的问题在于第 2 步CNN 用于预测动作,但 CNN 何时进行预测训练?

如果您使用较少的数学进行解释,我会更喜欢。

编辑

我想添加更多关于同一主题的问题

1) 神经网络中的奖励是如何传递的?那就是神经网络如何知道它的输出动作是获得正奖励还是负奖励?

2) 神经网络有多少输出以及如何从这些输出中确定动作?

1个回答

一旦你有结果,培训就会发生。如果结果是好的(也许你在 pong 中赢了,或者你在突破中提高了你的高分)游戏中的所有动作都被反向传播“支持”,如果结果不好,游戏中的所有动作都被抑制。

这听起来很奇怪,因为在每场比赛中,无论最终结果如何,您都会有许多好的和坏的动作,但如果您在数千场比赛中保持这种状态,它就会起作用。