我们可以将强化学习用于序列到序列的任务吗?如果是,无论这是否是一个好的选择,如何做到这一点?
强化学习可以用来生成序列吗?
人工智能
强化学习
参考请求
应用
序列建模
seq2seq
2021-11-13 18:57:29
1个回答
特定案例的一个著名示例是SeqGAN
SeqGAN 将数据生成器建模为强化学习 (RL) 中的随机策略,通过直接执行梯度策略更新来绕过生成器差异化问题。RL 奖励信号来自根据完整序列判断的 GAN 鉴别器,并使用蒙特卡洛搜索传递回中间状态-动作步骤。对合成数据和现实世界任务的广泛实验证明了在强大基线上的显着改进。