无法为 Banana-v0 Gym 环境训练 Coach

人工智能 强化学习 学习算法 健身房
2021-10-24 14:46:32

我刚开始玩强化学习,从基础开始,我试图弄清楚如何coach解决Banana Gym问题。

本质上Banana-v0env 代表一家香蕉店,它在第 1 天以 1美元的价格购买香蕉,并有 3 天的时间以0美元到2美元之间的任何价格出售,其中较低的价格意味着较高的出售机会。奖励是卖出价减去买入价。如果它在第 3 天没有卖出,则丢弃香蕉,奖励为 -1(香蕉购买价格,没有销售收益)。这很简单。

理想情况下,算法应该学会在第 1 天设定高价,如果没有卖出,则每天降低价格。

首先,我使用了教练捆绑的CartPole_ClippedPPO.py预设CartPole_DQN.py文件并对其进行了修改以运行Banana-v0健身房。

问题是,无论我尝试什么,我都看不到任何学习进展,即使在运行了 50,000 集之后也是如此。相比之下,CartPole 健身房成功训练不到 500 集。

对于像 Banana 这样简单的任务,我预计在 50k 集之后会有一些改进。

训练进度

是因为Banana-v0 的奖励不可预测吗?即香蕉是否出售仍然由随机数决定(成功机会取决于价格)。

我应该从这里拿它到哪里?如何确定我应该从哪个 Coach 代理算法开始并尝试调整它?

0个回答
没有发现任何回复~