我正在学习并尝试强化学习。现在我正在使用健身房和稳定基线。
我的项目有一个步骤,我用函数计算奖励。
-> step()
-> calculate_reward()
-> 返回计算的奖励
-> 在 step() 中:我设置了 total_reward = -1000和Done = True
但是代理每次都会中断这一步,因为它使用相同的动作。
Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900
Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900
Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900
我的概念有什么问题?我的笔记本 colab 是:https ://colab.research.google.com/drive/1HxjONW_QvYPagk7clUrUPFAkpJ59OwZ8?usp=sharing