数据挖掘 - 在 openai 健身房复古中使用 PPO2 进行强化学习，马里奥没有学习清晰的简单插曲 - 吾爱随笔录

我正在使用 ppo2 基线在复古中训练马里奥游戏一段时间。我也试过level3和level1。但是，即使在我使用保存的检查点进行全面训练后，马里奥也无法完成关卡。大多数情况下它会掉进洞里，或者甚至没有达到第一个简单级别的一半。
我需要编写奖励脚本吗？或者调整更多的超参数？
如果有人有使用健身房、复古或训练此类游戏的经验，那么他们可以提出建议。

训练代码：

python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7

使用保存的检查点运行 mario 的代码：

python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7 --load_path=C:\Users\SANDEE~1.BHU\AppData\Local\Temp\openai-2019-05-09-18-26-28-156556\checkpoints\08300 --play --num_env=1