关于 David Silver 关于强化学习的讲座,讲座幻灯片 (幻灯片 23、24),我有几个小问题。更具体地说,它是关于时间差异算法:
五(s吨) ← V(s吨) + α [Gt + 1+ γ五(st + 1) - V(s吨) ]
在哪里γ是我们的贴现率和α学习率。在讲座幻灯片中给出的示例中,我们观察到以下路径:
( A , 1 , B , 0 ) , ( B , 1 ) , ( B , 1 ) , ( B , 1 ) , ( B , 1 ) , ( B , 1 ) , ( B , 1 ) , ( B , 0 )
我们处于状态的第一条轨迹的含义一个, 得到奖励1,进入状态B并获得奖励0游戏结束。对于第二个轨迹,我们从状态开始B, 得到奖励1游戏结束...
假设我们用值初始化所有状态0并选择α=0.1,γ=1
我的第一个问题是以下是否“实施”TD(0)上述观察到的前两个轨迹的算法是否正确?
- V(a)←0+0.1(1+0−0)=0.1;V(b)←0+0.1(1+0−0)=0.1
- V(b)←0.1+(0.1)(1+0−0.1)=0.19
? 如果是这样,我们为什么不使用更新的价值函数V(b)也更新我们的价值V(a)?
我的第三个问题是关于以下声明
TD(0)收敛到最大似然马尔可夫模型的解
这意味着如果我们继续采样并应用TD(0)算法,由此获得的解决方案使用马尔可夫模型收敛到该样本的 ML 估计?为什么我们不立即使用 ML 估计?