由于许多无监督学习方法的出现,作为主要监督任务的预训练步骤(主要以深度学习的名义),不奇怪问,“预训练和从未标记数据中学习”的现状是什么,对于强化学习”?有什么最近/旧的作品吗?对未来的工作有什么建议吗?
强化学习的无监督预训练
机器算法验证
机器学习
2022-03-21 13:22:54
1个回答
我认为,您应该研究从示范中学习的方向。这个想法很简单。比方说,我们想教一个机器人玩电子游戏。我们记录一个人玩游戏,然后给模型这个数据以便对其进行预训练。
有很多可能的方式来使用这些数据。如果您对无监督预训练感兴趣,您应该研究逆向强化学习 (IRL) 方向。简而言之,该方法试图逼近奖励函数,并在道路上使用这种逼近进行通常的 RL。
我不知道 IRL 中的预训练,但从我的角度来看,这对调查应该是可能的和有趣的。以下是一些您可以开始的知名作品:Andrew Ng 和 Stuart Russel的 IRL 算法,以及Peter Abbeel 和 Andrew Ng 的IRL 学徒学习。
如果除了动作之外你还有奖励功能,你可能会用它做很多有趣的事情,包括预训练。这项工作是该主题的最新作品之一,人们会在参考资料中找到更多有趣的东西。
其它你可能感兴趣的问题