为连续状态、离散动作强化学习构建模拟器

数据挖掘 强化学习 模拟
2022-03-12 10:51:23

我正在尝试构建一个优化设备性能和温度的模拟器。我希望设备运行良好,但又不会使设备过热。如果设备变得太热,我希望内部电路降低设备性能以降低温度。很难在设备上执行重复的地面实况实验,因此我需要构建一个模拟器来训练代理。我是 RL 的新手,但我相信它应该有效,所以我开始学习它。

我认为动作空间是涉及内部电路的离散动作列表。我相信状态空间是一个元组(性能,温度)。但是,我对分配奖励感到困惑。我首先为每个动作提供一个离散的奖励值,并将其乘以与临界温度的距离,以计算代理可以用于下一次迭代的奖励。但是我对模拟器如何计算下一个状态感到困惑。

新状态是根据当前动作获得的奖励计算的吗?它是通过知道一些状态转移矩阵来计算的吗?它是根据所采取的动作计算出来的(如果是的话,模拟器的状态-动作关系如何)?为给定的动作设置分配奖励甚至是正确的,还是应该为状态设置分配奖励?我所做的内在假设是,一个给定的动作给出了一个特定的性能水平,这是一种状态,但理论中似乎存在一些漏洞。

关于如何构建模拟器的任何想法?对上述问题有什么想法吗?

0个回答
没有发现任何回复~