价值更新动态规划强化学习

数据挖掘 机器学习 强化学习
2021-10-11 13:50:15

关于网格世界中动态规划(强化学习)的价值迭代,每个状态的价值更新由下式给出:
在此处输入图像描述


现在假设我在说框(3,2)中。我可以去(4,2)(上)(3,3)(右)和(1,3)(左),这些都不是我的最终状态,所以我每进入一个都得到-0.1的奖励美国。所有状态的现值为0。向北的概率为0.8,向左/向右的概率为0.1。因此,由于向左/向右给了我更多的奖励(因为奖励*概率将为负数)我向左或向右。是不是这个机制。我对么?但是在公式中给出了一个求和项。所以我基本上无法理解这个公式。任何人都可以用一个例子来解释我吗?

1个回答

您描述的概率仅指北行动作。这意味着如果你想向北走,你有 80% 的机会实际向北走,20% 的机会向左或向右走,这使问题变得更加困难(不确定)。这条规则适用于所有方向。此外,公式不告诉选择哪个操作,只是告诉如何更新值。为了选择一个动作,假设一个贪婪策略,你会选择具有最高期望值的那个(V(s))。

该公式表示将最佳操作的所有可能结果的值相加。所以,假设 go-north 确实是最好的行动,你有:

.8(.1+0)+.1(.1+0)+.1(.1+0)=.1

但是让我们假设您仍然不知道哪个是最好的动作,并且想贪婪地选择一个。然后,您必须计算每个可能动作(北、南、东、西)的总和。您的示例将所有值设置为 0 和相同的奖励,因此不是很有趣。假设您向东有 +1 奖励(其余方向为 -0.1),而南方已经有 V(s) = 0.5(其余州为 0)。然后计算每个动作的值(让γ=1,因为它是用户调整的参数):

  • 北:.8(.1+0)+.1(.1+0)+.1(1+0)=.08.01+.1=.01
  • 南:.8(.1+.5)+.1(.1+0)+.1(1+0)=0.32.01+.1=.41
  • 东:.8(1+0)+.1(.1+0)+.1(.1+.5)=.8.01+.04=.83
  • 西:.8(.1+0)+.1(.1+0)+.1(.1+.5)=.08.01+.04=.05

因此,您将更新您的策略以从当前状态向东移动,并将当前状态值更新为0.83