我想使用强化学习来优化热力学模拟给出的削峰问题的能量分布。但是,我不确定如何进行,因为从这个意义上说,动作空间是唯一真正重要的事情:
动作空间是之间的实数 矩阵和. 模拟的输出以及我的奖励完全取决于这个矩阵的分布。
因此,状态空间不存在,因为唯一重要的是我完全控制的矩阵。在模拟的这个阶段,没有考虑其他变量。
我不确定这个问题是属于表格 RL 还是需要近似值。在这种情况下,我正在考虑使用策略梯度算法来找出最佳分布矩阵。但是,我不知道如何处理状态空间的“缺席”。而不是一个元组, 我会,这甚至是 RL 可解决的问题吗?如果不是,我如何重塑它以使其可以用 RL 技术解决?