机器算法验证 - Jack's Car Rental 中的策略迭代图（强化学习中） - 吾爱随笔录

谁能帮助解释一下理查德·萨顿（Richard Sutton）的书“强化学习：简介”的杰克汽车租赁示例中的图表？图像是这样的：

我不明白所有逐步曲线的含义是什么，并且 1-2-3-4 代表每个策略 $\pi_{i}$

该案的详细描述如下：（引用）

示例 4.2：Jack 的汽车租赁 Jack 为一家全国性汽车租赁公司管理两个地点。每天，一定数量的客户到达每个地点租车。如果杰克有车，他把它租出去，国家公司会记入10美元。如果他在那个位置没有车，那么生意就失败了。

汽车在归还后的第二天就可以租用。为帮助确保汽车在需要的地方可用，杰克可以在一夜之间将它们在两个地点之间移动，每移动一辆车的费用为 2。我们假设在每个位置请求和返回的汽车数量是泊松随机变量，这意味着数量为 n 的概率为 $\frac{\lambda^{n}}{n!} > e^{-\lambda}$ ，其中 λ 是预期数字。假设对于第一个和第二个位置的租赁请求，λ 是 3 和 4，对于退货，λ 是 3 和 2。

为了稍微简化问题，我们假设每个地点最多只能有 20 辆汽车（任何额外的汽车都归还给全国公司，因此问题不复存在），并且最多可以从一个地点移动 5 辆汽车一个晚上到另一个。我们将贴现率设为 γ = 0.9，并将其表示为连续有限 MDP，其中时间步长为天，状态是一天结束时每个位置的汽车数量，动作是净数量的汽车在一夜之间在两个地点之间移动。图 4.2 显示了策略迭代从不移动任何汽车的策略开始找到的策略序列。