我正在研究以下强化学习问题:我有一瓶固定容量(比如 5 升)。在瓶子的底部有公鸡去除水。去除水的分布不固定。我们可以从瓶子中取出任意数量的水,即 [0, 5] 之间的任意连续值。
在瓶子的顶部安装了一个水龙头,用于将水注入瓶子中。RL 剂可以在瓶子中填充 [0, 1, 2, 3, 4] 升。初始瓶液位是 [0, 5] 之间的任何值。
我想在这种环境中训练代理以获得最佳的动作顺序,这样瓶子就不会变空和溢出,这意味着需要持续供应水。
动作空间 = [0, 1, 2, 3, 4] 离散空间
观察空间 = [0, 瓶子容量] 即 [0, 5] 连续空间
奖励逻辑=如果瓶子因动作空了给予负奖励;如果由于行动导致瓶子溢出,则给予负面奖励
我决定使用python来创建一个环境。
我是 RL 的新手。我不知道我必须在哪种情况下给予奖励。我的奖励逻辑是正确的还是我必须改变它?