动态定价的深度强化学习

数据挖掘 深度学习 张量流 强化学习 dqn 深思熟虑
2022-02-13 00:55:39

我正在尝试为物流中的动态定价实施 Deep Q 网络模型。我可以定义

  1. 状态空间(起点、目的地、货物类型、客户、产品类型、货物的商品、容量的可用性等。

  2. Action Space(价格本身,范围可以从 0 到 inf)我们需要确定价格本身。

  3. 奖励信号(奖励可以基于对其他客户的类似优惠、季节性、剩余容量。

我计划使用多层感知器从状态空间获取输入并输出价格。

我不确定如何定义奖励函数。请帮我定义基于价格作为行动空间的奖励函数的数学公式?

- 更新 -

随时间演变的状态空间是剩余容量(Logistics)。考虑在初始时间步长为 10,000 公斤容量,并且在一段时间内容量减少,当容量已满且无法再运送货物时,该情节就完成了。

代理必须根据以下奖励找到最优价格。

0个回答
没有发现任何回复~