RL 适用于完全随机的环境吗?

数据挖掘 机器学习 强化学习
2022-03-02 18:12:18

我有一个关于强化学习(RL)在我们试图解决的问题上的适用性的基本问题。

我们正在尝试将 RL 用于库存管理——需求是完全随机的(它在现实生活中可能有一种模式,但现在让我们假设我们被迫将其视为纯粹随机的)。

据我了解,RL 可以帮助学习如何玩游戏(比如国际象棋)或帮助机器人学习走路。但是所有游戏都有规则,“推车杆”(OpenAI Gym)也有规则——有“物理”规则来控制推车杆何时倾倒。

对于我们的问题,没有规则——环境随机变化(对产品的需求)。

RL 真的适用于这种情况吗?

如果确实如此 - 那么什么会提高性能?

更多细节: - “环境”中唯一可用的两个刺激是产品“X”的当前可用水平和当前需求“Y” - “动作”是二元的 - 我是否订购数量“Q”来补充或者我不(离散行动空间)。- 我们正在使用 DQN 和 Adam 优化器。

我们的结果很差——我承认我只训练了大约 5,000 或 10,000 人——我应该让它训练几天,因为它是一个随机环境吗?

谢谢拉杰什

1个回答

从字面上理解你的问题标题:

RL 适用于完全随机的环境吗?

答案是否定的。在一个完全随机的环境中,几乎没有什么可以学到的。

但是,您实际上并没有完全随机的环境。你有一些数量以你不理解的方式波动很大。否则,您的环境的行为非常合乎逻辑 - 如果对 Y 项目有需求,并且您有 X 库存,那么如果 X > Y,您将最终得到 X - Y 库存,或者库存为 0,否则 Y - X 订单不完整。这是一个非常结构化的规则,你绝对可以将奖励与它联系起来并学习。假设您有订购和持有库存的成本以及不提供订单的机会成本。

Sutton & Barto: Reinforcement Learning,第 4 章的介绍,称为“杰克的汽车租赁”,您的情况的一个简单变体被用作玩具示例,其目标是优化两个地点的库存,其中任一地点出现随机需求。通过定义分布并以基于模型的方式使用它,这个玩具问题变得更容易了。但这通常不是必需的。

RL 真的适用于这种情况吗?

在你的情况下,可能是的。尽管您必须假设“完全随机”只是表达“高度可变”的一种方式,而不是一天的字面意思是 0,第二天是 3000 万,第二天是 7.5。订单将受到限制,它们将遵循一定的分布。

如果方差非常大,那么您可能会发现很难达到持有库存成本与丢失订单成本的平衡点,但原则上这是可以解决的,RL 是尝试解决方案的合理工具。

如果确实如此 - 那么什么会提高性能?

检查需求的任何波动是否取决于您可以收集的任何变量并将这些变量添加到状态中。例如,如果需求有一些每周或季节性的变化,那么日期的这些部分应该是您的状态表示的一部分。

了解和预测需求分布,即使不是精确值,也有助于模拟和规划算法。RL 算法随着时间的推移学习可能的分布,但它只能将自己的预测建立在你让它观察到的状态变量上。

您可能会做得更好:如果需求主要与您持有的库存水平无关,那么您可以将预测它的问题分开,并使用更强大的监督学习为状态添加“预测需求”功能。RL 将在此预测之上了解与仅信任此预测相关的成本与允许一些额外的传入订单以防万一等相关的成本。