我有一个特定的调度问题,我想知道我是否可以使用强化学习(如果可以的话,使用哪种 RL)来解决它。基本上我的问题是一个混合整数线性优化问题。我有一栋带有电加热装置的建筑物,可以将电能转化为热能。所以动作向量(决策变量)是它量化了加热设备的电功率。设备必须在一天中的每一分钟做出一个决定(因此总共有小时分钟变量)。这些变量中的每一个都是一个连续变量,并且可以具有以下之间的任何值和.
状态空间包含几个连续变量:
- 每分钟外部变动电价:介于美分和每千瓦时的美分(能量)
- 建筑物的内部温度:基本上在每个可能的值之间,但温度之间存在限制和
- 建筑物的热需求:之间的任何值和
- 改变电加热装置的“效率”和(取决于外部外部温度)
目标是最小化电力成本(在灵活的电价下)并且不违反建筑物的温度限制。如前所述,这个问题可以通过数学优化(混合整数线性规划)来解决。但我想知道你是否也可以通过强化学习来解决这个问题?由于我是强化学习的新手,所以我不知道该怎么做。我对此有些担忧。
在这里,我有一个非常大的具有连续值的状态空间。所以我无法建立一个全面的表,因为有很多值。此外,我不确定问题是否是强化问题的动态规划问题(大多数/全部?)。从优化的角度来看,它是一个混合整数线性问题。
谁能告诉我是否以及如何通过使用 RL 来解决这个问题?如果可能的话,我想知道哪种类型的 RL 方法适合这个。也许是 Deep-Q-Learning,还有一些 Monte-Carlo 策略迭代或 SARSA?我应该为此使用无模型还是基于模型的 RL?
提醒:没有人知道我是否以及如何使用强化学习来解决这个问题?我非常感谢每一条评论。
没有人可以就我的问题给我更多信息吗?我将非常感谢每一条评论,并非常感谢您提供更多见解和帮助。