如何选择输入以最大化有序数据集的奖励?

数据挖掘 预测建模 模型选择
2022-03-02 06:19:15

考虑以下问题,简化:

假设您有一些数据,其中只有 5 个列/属性。
其中一个可以看作是一种奖励我们在给定运行中的表现如何。
其他两个属性,假设 x 和 y 是我们对系统的输入。人手挑选了这些 xy值并记录下来。
另外两个属性是来自传感器的观察。这些不是输入,我们无法控制它们。我们称它们为ob1ob2
都是真实值(没有什么是离散的)。

一个想法是将此数据集视为有序数据集。
我们被要求选择最大化我们的奖励的输入值 x 和 y

我们有大约 70.000 个这个五元组数据集的实例

这是一种想到的方法,但不确定它在原则上是正确的还是更简单的方法。
我们可以构建一个预测器,它将四个属性(x、y、ob1、ob2)作为输入,并以奖励为目标。
然后尝试通过使用强化学习 (?) 对输入进行重复过程以获得最大化奖励的输入?..

1个回答

这似乎是一个具有连续动作空间的强化学习问题是观察、行动和奖励。(ob1, ob2)(x, y)reward

你可以参考DeepMind的这篇论文它提供了一种通用的深度 Q 学习方法来解决这类问题,包括一些物理任务。

但是,由于我没有您的数据,我不确定您是否有足够的实例。具有 4 个特征的约 70,000 个实例(大致)足以解决一般 ML 问题,但在强化学习领域,人们使用能够生成无限样本的模拟环境,因此约 70,000 个实例可能是瓶颈。

如果你遇到这样的问题,你可以尝试经典的强化学习(没有“深度”)技术。