根据之前的事件和离散的奖励值预测下一个事件

人工智能 强化学习 深度学习 自然语言处理 预言
2021-10-20 10:16:43

假设,我有几个包含一系列文本的序列(序列的长度可以变化)。另外,我有一些相关的奖励价值。但是,该值不像文本那样连续。它有很多缺失值。这是数据集的示例。

Sequence 1        Sequence 2 .............. Sequence n
------------      ----------                -------------
Action  Reward    Action  Reward            Action  Reward
  A                 C                          D
  B       5         A                          B      6
  C                 A       7                  A       
  C       6         B       10                 D           
  A                 C                          A           
  B       2         A                          B           
  ..                ...                        ...
 ...               .....                      .....
  D       5         C      4                   D          

现在我想根据奖励值预测下一个动作。这个想法是我想预测导致更多奖励的行为。以前,我只使用动作数据来预测使用 LSTM 和 GRU 的下一个动作。但是,我怎么能在这个预测中使用这个奖励值呢?我在想强化学习(MDP)是否可以解决这个问题。然而,由于奖励是离散的,我不确定 RL 是否可以做到这一点。另外,是否有可能用逆强化学习来解决这个问题?我有一些深度学习的知识。但是,我是强化学习的新手。如果有人给我一些建议或为我提供有关此问题的有用论文链接,它可以帮助我很多。

1个回答

您的问题看起来确实可以很好地匹配强化学习,或者至少与上下文强盗的相关想法相匹配。它是否能很好地匹配完整的强化学习算法取决于您正在处理的任何数据是否可以被视为环境状态的一部分,以及该状态是否根据代理可以学习的规则演变。利用。

以前,我只使用动作数据来预测使用 LSTM 和 GRU 的下一个动作。但是,我怎么能在这个预测中使用这个奖励值呢?

使用强化学习理论有几种不同的方法可以做到这一点。最简单的方法是构建一个回归预测器,该预测器根据当前状态提出的行动来近似未来奖励的总和(也称为回报效用)。然后,您可以使用价值函数逼近器(您刚刚构建的预测器的正式名称)来预测每个可能动作的结果并选择最大化的一个。可以使用 Q 学习等方法从历史数据集中学习这样的价值函数。

这个主题太复杂了,无法在这里的一个答案中从头开始教授。一个很好的学习资源是Reinforcement Learning: An Introduction by Sutton & Barto,作者免费提供。

然而,由于奖励是离散的,我不确定 RL 是否可以做到这一点。

是的,它可以。强化学习只要求每种情况下的奖励遵循一致的价值分布总是返回离散值不是问题,在相同情况下也总是返回相同的值。奖励值的随机性——例如有时返回离散值而有时返回不同的情况——也是可以的。您可以将缺失值视为零,因为您只关心收到的奖励的总和,当没有可用值时使用零对将被视为最佳解决方案没有影响。

另外,是否有可能用逆强化学习来解决这个问题?

可能不是。逆强化学习关注的是通过观察现有代理来确定其正在使用的参数。例如,您可以使用它来观察生物的行为并找出哪些奖励对它更有价值。在你的情况下,你有奖励值,所以你不需要弄清楚它们。

警告:您需要弄清楚环境中的状态是什么。如果有一些状态可用于预测,但代理的行为永远不会改变状态,那么您可能需要花一些时间将您的问题建模为上下文强盗Bandit 算法在同一本书 Reinforcement Learning: An Introduction 中进行了介绍,但只需要教授完整的 RL 问题 - 强盗求解器可以变得比本书所考虑的要复杂得多。

请注意,如果代理行为的历史会影响奖励(例如,采取正确行动的时间问题),那么该历史就是状态的一部分,并且您可能确实需要解决一个完整的强化学习问题。