假设,我有几个包含一系列文本的序列(序列的长度可以变化)。另外,我有一些相关的奖励价值。但是,该值不像文本那样连续。它有很多缺失值。这是数据集的示例。
Sequence 1 Sequence 2 .............. Sequence n
------------ ---------- -------------
Action Reward Action Reward Action Reward
A C D
B 5 A B 6
C A 7 A
C 6 B 10 D
A C A
B 2 A B
.. ... ...
... ..... .....
D 5 C 4 D
现在我想根据奖励值预测下一个动作。这个想法是我想预测导致更多奖励的行为。以前,我只使用动作数据来预测使用 LSTM 和 GRU 的下一个动作。但是,我怎么能在这个预测中使用这个奖励值呢?我在想强化学习(MDP)是否可以解决这个问题。然而,由于奖励是离散的,我不确定 RL 是否可以做到这一点。另外,是否有可能用逆强化学习来解决这个问题?我有一些深度学习的知识。但是,我是强化学习的新手。如果有人给我一些建议或为我提供有关此问题的有用论文链接,它可以帮助我很多。