考虑以下问题,简化:
假设您有一些数据,其中只有 5 个列/属性。
其中一个可以看作是一种奖励。我们在给定运行中的表现如何。
其他两个属性,假设 x 和 y 是我们对系统的输入。人手挑选了这些 x、y值并记录下来。
另外两个属性是来自传感器的观察。这些不是输入,我们无法控制它们。我们称它们为ob1和ob2。
都是真实值(没有什么是离散的)。
一个想法是将此数据集视为有序数据集。
我们被要求选择最大化我们的奖励的输入值 x 和 y。
我们有大约 70.000 个这个五元组数据集的实例
这是一种想到的方法,但不确定它在原则上是正确的还是更简单的方法。
我们可以构建一个预测器,它将四个属性(x、y、ob1、ob2)作为输入,并以奖励为目标。
然后尝试通过使用强化学习 (?) 对输入进行重复过程以获得最大化奖励的输入?..