强化学习应用于优化问题

数据挖掘 Python 深度学习 强化学习 优化
2022-02-22 20:34:22

问题陈述:给我们一个优化问题;拥有生产中心、源机场、目的地机场、转运点并最终交付给客户。下图更好地解释了这一点。问题陈述

目标函数1: 最小化成本=库存成本+运输成本+罚款成本+装卸成本

  1. 库存成本= 源机场的库存成本 + 配送中心的库存成本

  2. 运输成本=从生产中心到源机场的运输成本(通过卡车)+通过路线运输货物的成本(通过航班)+从配送中心到转运点的运输成本(通过卡车)+从转运站运输货物的成本指向客户(通过无人机)

  3. 罚款成本=运营航线成本和延误罚款成本

  4. 装卸成本=在生产中心用卡车装货的成本+在转运点从卡车上卸货的成本

数学解决方案(使用 IBM CPLEX 求解器/Docplex):此Google Drive Link中提供了完整的 Python 代码(.ipynb 文件)和公式这给出了最佳解决方案。

查询:有没有任何非数学、非公式化的方法来解决这个问题陈述?强化学习方面的东西?如果还提供了任何实现,那将是锦上添花。

1个回答

为了用强化学习 (RL) 解决这个问题,首先定义一个代理。代理将在环境中尝试不同的策略。产生更高奖励的政策将被更频繁地使用。

这个问题相对简单(对于 RL 问题),因为可以将环境建模为具有固定离散节点集的有向无环图 (DAG)。蛮力策略搜索可能会起作用。