深度 Q 学习、A3C、随着遗传算法演变的策略,它们都无法学习小行星,或者至少表现得比人类差。根据 RL,从最难的 Atari 游戏中,大部分焦点都集中在 Montezuma 的复仇上,它显然受到了稀少的奖励。但是我不认为这是小行星(视频)的情况,因为每次小行星射击都会提供奖励。为什么 DRL 表现那么差呢?
以下是一些报告 Asteroids 的不良结果的论文(一些文章相互引用):
深度 Q 学习、A3C、随着遗传算法演变的策略,它们都无法学习小行星,或者至少表现得比人类差。根据 RL,从最难的 Atari 游戏中,大部分焦点都集中在 Montezuma 的复仇上,它显然受到了稀少的奖励。但是我不认为这是小行星(视频)的情况,因为每次小行星射击都会提供奖励。为什么 DRL 表现那么差呢?
以下是一些报告 Asteroids 的不良结果的论文(一些文章相互引用):
我怀疑一个错误,或者一些微妙的实现细节。
在许多方面,Asteroids 与没有定制设计的人一样接近理想环境:
将此与尚未掌握的 DOTA 2 进行比较,但在复杂性适度降低(1v1 而不是 5v5)的情况下,OpenAI 能够取得一些令人印象深刻的结果,尽管它比小行星复杂几个数量级。
2015 年 DQN 论文中做出了某些妥协,例如:
“按照之前玩 Atari2600 游戏的方法,我们还使用了一种简单的跳帧技术 (15)。更准确地说,代理在每 k 帧而不是每帧上查看和选择动作,并且它的最后一个动作在跳过的帧上重复。因为向前运行模拟器一步所需的计算量比让代理选择一个动作要少得多,所以这种技术允许代理玩大约 k 倍的游戏,而不会显着增加运行时间。
我们对所有游戏都使用 k - 4"
作为反例,顶级人类玩家经常在现代格斗游戏中做出单帧级别的决策/动作(以 60 FPS 的速度在视觉和游戏逻辑中渲染),因此我们知道这种方法不适用于所有视频游戏。
我怀疑即使这些是有效的通用方法,其中一种方法在小行星上严重失败。
这是一个很好的问题,因为诊断小行星造成困难的原因可以为测试程序或算法设计提供一些深刻的见解,因为显然正在发生一些事情。我认为要获得准确的答案需要解决问题。