如何使用 Q-learning 进行库存决策?

人工智能 强化学习 人工智能设计 q学习
2021-10-19 01:23:34

我正在尝试对库存控制中的运营决策进行建模。控制策略是具有固定库存水平的基础库存S. 也就是说,每次需求到达时都会下达补货订单,以使库存水平达到S. 补货以恒定的提前期到达L. 有上限D在允许的缺货时间,并测量每T期间,否则会产生费用Cp. 该系统的功能与 M/G/S 队列类似。缺货时间可以认为是由于所有服务器繁忙而导致的客户等待时间。所以每R时期 (R小于T) 监控未完成订单的库存水平和管道,并决定是否加快未完成订单(涉及成本Ce) 以控制等待/缺货时间和最小化总成本。

我觉得这是一个与时间和状态相关的问题,并且想使用Q- 学习解决这个 MDP 问题。时间段T通常是一个季度,即 3 个月,我计划将需求模拟为泊松到达。我担心的是模拟到达是否有助于评估 Q 值,因为模拟时间如此之短。我这样是不是高估了Q值?我请求一些关于我应该如何进行实施的帮助。

0个回答
没有发现任何回复~