为什么基于模型的方法比无模型方法使用更少的样本?在这里,我特别指的是基于模型的方法,我们必须在其中学习策略和模型。对于这个问题,我只能想到两个原因:
我们可以潜在地从学习模型中获得更多样本,这可能会加快学习速度。
模型使我们能够预测未来状态并运行模拟。这可能会导致更有价值的转变,从而加快学习速度。
但我严重怀疑这就是整个故事。真诚地,我希望有人可以为这个问题分享更详细的解释。
为什么基于模型的方法比无模型方法使用更少的样本?在这里,我特别指的是基于模型的方法,我们必须在其中学习策略和模型。对于这个问题,我只能想到两个原因:
我们可以潜在地从学习模型中获得更多样本,这可能会加快学习速度。
模型使我们能够预测未来状态并运行模拟。这可能会导致更有价值的转变,从而加快学习速度。
但我严重怀疑这就是整个故事。真诚地,我希望有人可以为这个问题分享更详细的解释。
在这篇 Medium 文章中,我发现 [1] 很好地解释了与无模型强化学习相比,基于模型的强化学习模型效率更高的背后原因。
两者之间的主要区别就像您所说的那样,由于模型的存在,该模型有助于更有效地找到正确的路径。也许您找不到新样本(第 1 点),但您更了解系统的整个内部逻辑,而且您不仅知道如何处理特定样本,还可以将其与整个图片联系起来(有点像第 2 点:你可以玩这些选择)并进行更深入的计算。
这篇文章有一个比较,它告诉你在一个城市里写一张地图,关于当你是基于模型时你可以采取的每一个可能的方向,而在无模型时你可以输入特定的地方并记住哪个方向是最好的。访问,但你仍然永远不知道你来或去的确切位置。
换句话说,如果你认为你是在一个有很多标志和规则的大城市教出租车司机,那么基于模型的人会更快地开车,因为手语(城市的内在逻辑和模型)可以帮助他们理解地图总是比只是通过偶然交叉来反应交叉更快。
样本效率表明从一个样本中获取的信息量是多少 [2]。基于模型的机器可以调整模型,可能对预期奖励进行一些计算,然后与无模型相同,调整公共策略。Model-free 确实只有策略。再次是出租车人:没有模型的人知道我上次和倒数第二次我在路口停下来,有模型的人也知道这是由于杆子上的红灯。第三次没有模型的家伙排在第一排,砰——撞到了过街车。下一次规则是有时汽车和基于模型的人从一开始就知道这一点。
我的消息来源:
[1] https://medium.com/the-official-integrate-ai-blog/understanding-reinforcement-learning-93d4e34e5698