用潜在表示替换状态如何帮助 RL 代理?

人工智能 强化学习 文件 自动编码器 概括 状态空间
2021-11-04 04:16:31

我看过很多论文使用自动编码器用潜在表示替换图像(状态)。其中一些方法使用这些技术显示出更高的回报。但是,我不明白这如何帮助 RL 代理更好地学习。也许查看潜在表示可以让代理更快地泛化到新状态?

这是我读过的两篇论文-

1个回答

简而言之,代理从更小的维度状态空间中学习要容易得多。这是因为代理还必须进行表示学习;即,作为学习过程的一部分,它还必须推断国家告诉它的内容。如果你想到 DQN 中用于解决 Atari 的架构,他们有一个 CNN,它输出一个向量,然后通过一些密集层。在这里,表示学习由 CNN 完成,并使用端到端方法进行训练,即所有网络权重的更新都是通过强化学习目标完成的;也就是说,没有发生有监督或无监督的学习。

当您将图像与稀疏奖励相结合时,这可能特别困难,因为没有很多反馈,因此表示学习可能需要很长时间。本文很好地描述了将表示学习与强化学习解耦的问题,并提供了一个很好的解决方案。

我看到图像被潜在状态替换的另一个主要“问题设置”是作者正在考虑计划时。进行任何类型的计划的问题在于过渡动态模型,p(s|s,a), 是必需的。对于图像等高维状态空间,这可能非常难以预测,即使是相对较小的错误也会很快复合,因此如果您使用该模型预测未来的多个时间步长,则规划器由于这些复合错误而无用。我认为本文对此进行了讨论(当然其中会有一些参考资料可以为您指明正确的方向)。