人工智能 - 有可能通过强化学习来解决具有连续动作空间且没有状态的问题吗？ - 吾爱随笔录

我想使用强化学习来优化热力学模拟给出的削峰问题的能量分布。但是，我不确定如何进行，因为从这个意义上说，动作空间是唯一真正重要的事情：

动作空间是 $288 \times 66$ 之间的实数矩阵 $0$ 和 $1$ . 模拟的输出以及我的奖励完全取决于这个矩阵的分布。
因此，状态空间不存在，因为唯一重要的是我完全控制的矩阵。在模拟的这个阶段，没有考虑其他变量。

我不确定这个问题是属于表格 RL 还是需要近似值。在这种情况下，我正在考虑使用策略梯度算法来找出最佳分布 $288 \times 66$ 矩阵。但是，我不知道如何处理状态空间的“缺席”。而不是一个元组 $\langle s,a,r,s' \rangle$ , 我会 $\langle a, r \rangle$ ，这甚至是 RL 可解决的问题吗？如果不是，我如何重塑它以使其可以用 RL 技术解决？