人工智能 - 强化学习可以用来生成序列吗？ - 吾爱随笔录

人工智能强化学习参考请求应用序列建模 seq2seq

2021-11-13 18:57:29

我们可以将强化学习用于序列到序列的任务吗？如果是，无论这是否是一个好的选择，如何做到这一点？

1个回答

特定案例的一个著名示例是SeqGAN

SeqGAN 将数据生成器建模为强化学习 (RL) 中的随机策略，通过直接执行梯度策略更新来绕过生成器差异化问题。RL 奖励信号来自根据完整序列判断的 GAN 鉴别器，并使用蒙特卡洛搜索传递回中间状态-动作步骤。对合成数据和现实世界任务的广泛实验证明了在强大基线上的显着改进。

其它你可能感兴趣的问题