在 Arcade Learning Environment (ALE) 中的某些 Atari 游戏中,需要按FIRE一次才能开始游戏。因为强化学习 (RL) 代理可能很难学习这一点,所以他们可能经常浪费大量时间来执行什么都不做的动作。因此,我的印象是,有些人对他们的代理进行硬编码,以便FIRE在必要时按下该按钮一次。
例如,在 OpenAI 的基线存储库中,这是使用FireResetEnv包装器实现的。再往下,在他们的wrap_deepmind(其中应用了该包装器)中,暗示 DeepMind 倾向于在其所有出版物中使用此功能。不过,我无法找到此声明的参考资料。
我的问题是:在已发表的研究(DeepMind 或其他人)中使用上述功能是否常见?我想说的是,如果是这种情况,应该在这些论文中明确提及(因为了解硬编码的领域知识是否已添加到学习代理中很重要),但我在查看后无法明确找到各种各样的论文。因此,基于此,我倾向于相信答案是“不”。然后让我感到困惑的主要事情是 OpenAI 基线存储库中的暗示(没有参考)答案将是“是”。