谁能帮助解释一下理查德·萨顿(Richard Sutton)的书“强化学习:简介”的杰克汽车租赁示例中的图表?图像是这样的:
我不明白所有逐步曲线的含义是什么,并且 1-2-3-4 代表每个策略
该案的详细描述如下:(引用)
示例 4.2:Jack 的汽车租赁 Jack 为一家全国性汽车租赁公司管理两个地点。每天,一定数量的客户到达每个地点租车。如果杰克有车,他把它租出去,国家公司会记入10美元。如果他在那个位置没有车,那么生意就失败了。
汽车在归还后的第二天就可以租用。为帮助确保汽车在需要的地方可用,杰克可以在一夜之间将它们在两个地点之间移动,每移动一辆车的费用为 2美元。我们假设在每个位置请求和返回的汽车数量是泊松随机变量,这意味着数量为 n 的概率为,其中 λ 是预期数字。假设对于第一个和第二个位置的租赁请求,λ 是 3 和 4,对于退货,λ 是 3 和 2。
为了稍微简化问题,我们假设每个地点最多只能有 20 辆汽车(任何额外的汽车都归还给全国公司,因此问题不复存在),并且最多可以从一个地点移动 5 辆汽车一个晚上到另一个。我们将贴现率设为 γ = 0.9,并将其表示为连续有限 MDP,其中时间步长为天,状态是一天结束时每个位置的汽车数量,动作是净数量的汽车在一夜之间在两个地点之间移动。图 4.2 显示了策略迭代从不移动任何汽车的策略开始找到的策略序列。