人工智能 - 如何使用 Q-learning 进行库存决策？ - 吾爱随笔录

我正在尝试对库存控制中的运营决策进行建模。控制策略是具有固定库存水平的基础库存 $S$ . 也就是说，每次需求到达时都会下达补货订单，以使库存水平达到 $S$ . 补货以恒定的提前期到达 $L$ . 有上限 $D$ 在允许的缺货时间，并测量每 $T$ 期间，否则会产生费用 $C_p$ . 该系统的功能与 M/G/S 队列类似。缺货时间可以认为是由于所有服务器繁忙而导致的客户等待时间。所以每 $R$ 时期（ $R$ 小于 $T$ ) 监控未完成订单的库存水平和管道，并决定是否加快未完成订单（涉及成本 $C_e$ ) 以控制等待/缺货时间和最小化总成本。

我觉得这是一个与时间和状态相关的问题，并且想使用 $Q$ - 学习解决这个 MDP 问题。时间段 $T$ 通常是一个季度，即 3 个月，我计划将需求模拟为泊松到达。我担心的是模拟到达是否有助于评估 Q 值，因为模拟时间如此之短。我这样是不是高估了Q值？我请求一些关于我应该如何进行实施的帮助。