数据挖掘 - 动态定价的深度强化学习 - 吾爱随笔录

我正在尝试为物流中的动态定价实施 Deep Q 网络模型。我可以定义

我计划使用多层感知器从状态空间获取输入并输出价格。

我不确定如何定义奖励函数。请帮我定义基于价格作为行动空间的奖励函数的数学公式？

- 更新 -

随时间演变的状态空间是剩余容量（Logistics）。考虑在初始时间步长为 10,000 公斤容量，并且在一段时间内容量减少，当容量已满且无法再运送货物时，该情节就完成了。

代理必须根据以下奖励找到最优价格。