Jack's Car Rental 中的策略迭代图(强化学习中)

机器算法验证 强化学习
2022-04-11 11:12:44

谁能帮助解释一下理查德·萨顿(Richard Sutton)的书“强化学习:简介”的杰克汽车租赁示例中的图表?图像是这样的:在此处输入图像描述

我不明白所有逐步曲线的含义是什么,并且 1-2-3-4 代表每个策略πi

该案的详细描述如下:(引用)

示例 4.2:Jack 的汽车租赁 Jack 为一家全国性汽车租赁公司管理两个地点。每天,一定数量的客户到达每个地点租车。如果杰克有车,他把它租出去,国家公司会记入10美元如果他在那个位置没有车,那么生意就失败了。

汽车在归还后的第二天就可以租用。为帮助确保汽车在需要的地方可用,杰克可以在一夜之间将它们在两个地点之间移动,每移动一辆车的费用为 2美元我们假设在每个位置请求和返回的汽车数量是泊松随机变量,这意味着数量为 n 的概率为λnn!>eλ,其中 λ 是预期数字。假设对于第一个和第二个位置的租赁请求,λ 是 3 和 4,对于退货,λ 是 3 和 2。

为了稍微简化问题,我们假设每个地点最多只能有 20 辆汽车(任何额外的汽车都归还给全国公司,因此问题不复存在),并且最多可以从一个地点移动 5 辆汽车一个晚上到另一个。我们将贴现率设为 γ = 0.9,并将其表示为连续有限 MDP,其中时间步长为天,状态是一天结束时每个位置的汽车数量,动作是净数量的汽车在一夜之间在两个地点之间移动。图 4.2 显示了策略迭代从不移动任何汽车的策略开始找到的策略序列。

1个回答

阶梯曲线显示了不同政策行动的轮廓,作为状态空间上的地图。它们是策略的可视化选择,它有 441 个状态,并且看起来不像表格那样直观。

这些数字是策略决定从第一个位置移动到第二个位置的汽车数量。

您可以从π4通过找到网格点来绘制每个位置的特定数量的汽车(n2,n1)为此(首先读取水平轴)并查看该区域内的数字 - 将该数量的汽车从第一个位置移动到第二个位置。

最终图像将最优策略的状态值函数显示为 3D 表面,其中底为状态,高度为值。


当我做这个练习时,我找不到如何使用 获得标记的轮廓matplotlib,所以我制作了一个颜色图:

在此处输入图像描述

较热的颜色增量意味着将汽车从第一个位置移动到第二个位置,地图方向与书籍不同。