在 openai 健身房复古中使用 PPO2 进行强化学习,马里奥没有学习清晰的简单插曲

数据挖掘 强化学习 q学习 开放式健身房
2022-02-27 00:35:06

我正在使用 ppo2 基线在复古中训练马里奥游戏一段时间。我也试过level3和level1。但是,即使在我使用保存的检查点进行全面训练后,马里奥也无法完成关卡。大多数情况下它会掉进洞里,或者甚至没有达到第一个简单级别的一半。
我需要编写奖励脚本吗?或者调整更多的超参数?
如果有人有使用健身房、复古或训练此类游戏的经验,那么他们可以提出建议。

训练代码:

python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7 

使用保存的检查点运行 mario 的代码:

python -m baselines.run --alg=ppo2 --env=SuperMarioBros-Nes --gamestate=Level1-1.state --num_timesteps=1e7 --load_path=C:\Users\SANDEE~1.BHU\AppData\Local\Temp\openai-2019-05-09-18-26-28-156556\checkpoints\08300 --play --num_env=1
0个回答
没有发现任何回复~