我正在使用 ppo2 基线在复古中训练马里奥游戏一段时间。我也试过level3和level1。但是,即使在我使用保存的检查点进行全面训练后,马里奥也无法完成关卡。大多数情况下它会掉进洞里,或者甚至没有达到第一个简单级别的一半。
我需要编写奖励脚本吗?或者调整更多的超参数?
如果有人有使用健身房、复古或训练此类游戏的经验,那么他们可以提出建议。
训练代码:
python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7
使用保存的检查点运行 mario 的代码:
python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7 --load_path=C:\Users\SANDEE~1.BHU\AppData\Local\Temp\openai-2019-05-09-18-26-28-156556\checkpoints\08300 --play --num_env=1