我正在尝试对库存控制中的运营决策进行建模。控制策略是具有固定库存水平的基础库存. 也就是说,每次需求到达时都会下达补货订单,以使库存水平达到. 补货以恒定的提前期到达. 有上限在允许的缺货时间,并测量每期间,否则会产生费用. 该系统的功能与 M/G/S 队列类似。缺货时间可以认为是由于所有服务器繁忙而导致的客户等待时间。所以每时期 (小于) 监控未完成订单的库存水平和管道,并决定是否加快未完成订单(涉及成本) 以控制等待/缺货时间和最小化总成本。
我觉得这是一个与时间和状态相关的问题,并且想使用- 学习解决这个 MDP 问题。时间段通常是一个季度,即 3 个月,我计划将需求模拟为泊松到达。我担心的是模拟到达是否有助于评估 Q 值,因为模拟时间如此之短。我这样是不是高估了Q值?我请求一些关于我应该如何进行实施的帮助。