数据挖掘 - 为连续状态、离散动作强化学习构建模拟器 - 吾爱随笔录

我正在尝试构建一个优化设备性能和温度的模拟器。我希望设备运行良好，但又不会使设备过热。如果设备变得太热，我希望内部电路降低设备性能以降低温度。很难在设备上执行重复的地面实况实验，因此我需要构建一个模拟器来训练代理。我是 RL 的新手，但我相信它应该有效，所以我开始学习它。

我认为动作空间是涉及内部电路的离散动作列表。我相信状态空间是一个元组（性能，温度）。但是，我对分配奖励感到困惑。我首先为每个动作提供一个离散的奖励值，并将其乘以与临界温度的距离，以计算代理可以用于下一次迭代的奖励。但是我对模拟器如何计算下一个状态感到困惑。

新状态是根据当前动作获得的奖励计算的吗？它是通过知道一些状态转移矩阵来计算的吗？它是根据所采取的动作计算出来的（如果是的话，模拟器的状态-动作关系如何）？为给定的动作设置分配奖励甚至是正确的，还是应该为状态设置分配奖励？我所做的内在假设是，一个给定的动作给出了一个特定的性能水平，这是一种状态，但理论中似乎存在一些漏洞。

关于如何构建模拟器的任何想法？对上述问题有什么想法吗？