有可能通过强化学习来解决具有连续动作空间且没有状态的问题吗?

人工智能 强化学习 政策梯度 多臂强盗 状态空间 连续动作空间
2021-10-30 06:59:42

我想使用强化学习来优化热力学模拟给出的削峰问题的能量分布。但是,我不确定如何进行,因为从这个意义上说,动作空间是唯一真正重要的事情:

  • 动作空间是288×66之间的实数 矩阵01. 模拟的输出以及我的奖励完全取决于这个矩阵的分布。

  • 因此,状态空间不存在,因为唯一重要的是我完全控制的矩阵。在模拟的这个阶段,没有考虑其他变量。

我不确定这个问题是属于表格 RL 还是需要近似值。在这种情况下,我正在考虑使用策略梯度算法来找出最佳分布288×66矩阵。但是,我不知道如何处理状态空间的“缺席”。而不是一个元组s,a,r,s, 我会a,r,这甚至是 RL 可解决的问题吗?如果不是,我如何重塑它以使其可以用 RL 技术解决?

1个回答

无状态 RL 问题可以简化为多臂老虎机 (MAB)问题。在这种情况下,采取行动不会改变代理的状态。

因此,这是传统 MAB 问题的设置:在每个时间步,代理选择一个动作来执行探索或利用移动。然后它记录所采取行动的回报并更新其对行动有用性的估计/期望。然后,重复该过程(选择、观察、更新)。

为了在探索和开发之间进行选择,MAB 代理采用了一种策略。最简单的可能是ϵ- 贪心哪个智能体大多数时候选择最有回报的动作(1-ϵ概率)或随机选择一个动作(ϵ可能性)。