数据挖掘 - 强化学习 - 在 800k 时间步之后，代理不会学习 - 吾爱随笔录

我正在学习并尝试强化学习。现在我正在使用健身房和稳定基线。

我的项目有一个步骤，我用函数计算奖励。

-> step()
-> calculate_reward()
-> 返回计算的奖励
-> 在 step() 中：我设置了 total_reward = -1000和Done = True

但是代理每次都会中断这一步，因为它使用相同的动作。

Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900
Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900
Tick: 23
Price: 131.067600 - Next Price: 126.127800 - Action: 0 - Reward: 4.939800
Tick: 24
Price: 128.367200 - Next Price: 130.804100 - Action: 0 - Reward: -2.436900

我的概念有什么问题？我的笔记本 colab 是：https ://colab.research.google.com/drive/1HxjONW_QvYPagk7clUrUPFAkpJ59OwZ8?usp=sharing