我正在尝试为物流中的动态定价实施 Deep Q 网络模型。我可以定义
状态空间(起点、目的地、货物类型、客户、产品类型、货物的商品、容量的可用性等。
Action Space(价格本身,范围可以从 0 到 inf)我们需要确定价格本身。
奖励信号(奖励可以基于对其他客户的类似优惠、季节性、剩余容量。
我计划使用多层感知器从状态空间获取输入并输出价格。
我不确定如何定义奖励函数。请帮我定义基于价格作为行动空间的奖励函数的数学公式?
- 更新 -
随时间演变的状态空间是剩余容量(Logistics)。考虑在初始时间步长为 10,000 公斤容量,并且在一段时间内容量减少,当容量已满且无法再运送货物时,该情节就完成了。
代理必须根据以下奖励找到最优价格。