为什么是目标r + γ最大限度一个'问(s',一个';θ-一世)r+γmaxa′Q(s′,a′;θi−)在 DQN 架构的损失函数中?

人工智能 深度学习 强化学习 q学习
2021-10-31 03:53:24

Human-level control through deep enhancement learning一文中,提出了DQN架构,其中损失函数如下

Li(θi)=E(s,a,r,s)U(D)[(r+γmaxaQ(s,a;θi)Q(s,a;θ))2]

在哪里r+γmaxaQ(s,a;θi)近似于“目标”Q(s,a;θ). 但我不清楚为什么。现有权重如何逼近目标(基本事实)?不是吗r是来自体验回放数据集的样本吗?r标量值?

1个回答

这就是强化学习 (RL) 试图解决的问题:当我们不知道什么是正确的行动并且只有一个标量(奖励 (r) 是一个标量)奖励时,最好的行为方式是什么?我们做得如何?

RL 通过利用时间差异学习来解决这个问题,并根据之前的经验进行预测。RL 智能体试图最大化未来折扣奖励的总和,称为回报。

术语r+γmaxaQ(s,a;θi)本质上是在说“我刚刚看到的奖励+γ*(我对回报的预测,因为我采取了我认为在当前状态下最好的行动,并从那时起遵循我的政策)”

通过更新 Q 函数,智能体可以更好地预测其动作的后果,然后以更大的概率选择最佳动作。

γ(gamma) 有助于在即时奖励和未来奖励之间取得平衡。一个γ=0使即时奖励成为唯一重要的事情,但通常对良好行为的奖励会延迟,因此伽马值对以后的奖励具有更高的重要性(γ=.8,.9,.99等)被使用。