人工智能 - 为什么基于模型的方法比无模型方法的样本效率更高？ - 吾爱随笔录

为什么基于模型的方法比无模型方法的样本效率更高？

人工智能强化学习比较基于模型的方法无模型方法样本效率

2021-11-11 12:19:29

为什么基于模型的方法比无模型方法使用更少的样本？在这里，我特别指的是基于模型的方法，我们必须在其中学习策略和模型。对于这个问题，我只能想到两个原因：

我们可以潜在地从学习模型中获得更多样本，这可能会加快学习速度。
模型使我们能够预测未来状态并运行模拟。这可能会导致更有价值的转变，从而加快学习速度。

但我严重怀疑这就是整个故事。真诚地，我希望有人可以为这个问题分享更详细的解释。

1个回答

在这篇 Medium 文章中，我发现 [1] 很好地解释了与无模型强化学习相比，基于模型的强化学习模型效率更高的背后原因。

两者之间的主要区别就像您所说的那样，由于模型的存在，该模型有助于更有效地找到正确的路径。也许您找不到新样本（第 1 点），但您更了解系统的整个内部逻辑，而且您不仅知道如何处理特定样本，还可以将其与整个图片联系起来（有点像第 2 点：你可以玩这些选择）并进行更深入的计算。

这篇文章有一个比较，它告诉你在一个城市里写一张地图，关于当你是基于模型时你可以采取的每一个可能的方向，而在无模型时你可以输入特定的地方并记住哪个方向是最好的。访问，但你仍然永远不知道你来或去的确切位置。

换句话说，如果你认为你是在一个有很多标志和规则的大城市教出租车司机，那么基于模型的人会更快地开车，因为手语（城市的内在逻辑和模型）可以帮助他们理解地图总是比只是通过偶然交叉来反应交叉更快。

样本效率表明从一个样本中获取的信息量是多少 [2]。基于模型的机器可以调整模型，可能对预期奖励进行一些计算，然后与无模型相同，调整公共策略。Model-free 确实只有策略。再次是出租车人：没有模型的人知道我上次和倒数第二次我在路口停下来，有模型的人也知道这是由于杆子上的红灯。第三次没有模型的家伙排在第一排，砰——撞到了过街车。下一次规则是有时汽车和基于模型的人从一开始就知道这一点。

我的消息来源：

[1] https://medium.com/the-official-integrate-ai-blog/understanding-reinforcement-learning-93d4e34e5698

[2]什么是采样效率，如何使用重要性采样来实现它？

其它你可能感兴趣的问题

上一篇有人可以帮我验证我的 MDP 吗？下一篇将照片正面朝上？