在Human-level control through deep enhancement learning一文中,提出了DQN架构,其中损失函数如下
在哪里近似于“目标”. 但我不清楚为什么。现有权重如何逼近目标(基本事实)?不是吗是来自体验回放数据集的样本吗?是标量值?
在Human-level control through deep enhancement learning一文中,提出了DQN架构,其中损失函数如下
在哪里近似于“目标”. 但我不清楚为什么。现有权重如何逼近目标(基本事实)?不是吗是来自体验回放数据集的样本吗?是标量值?
这就是强化学习 (RL) 试图解决的问题:当我们不知道什么是正确的行动并且只有一个标量(奖励 (r) 是一个标量)奖励时,最好的行为方式是什么?我们做得如何?
RL 通过利用时间差异学习来解决这个问题,并根据之前的经验进行预测。RL 智能体试图最大化未来折扣奖励的总和,称为回报。
术语本质上是在说“我刚刚看到的奖励+*(我对回报的预测,因为我采取了我认为在当前状态下最好的行动,并从那时起遵循我的政策)”。
通过更新 Q 函数,智能体可以更好地预测其动作的后果,然后以更大的概率选择最佳动作。
这(gamma) 有助于在即时奖励和未来奖励之间取得平衡。一个使即时奖励成为唯一重要的事情,但通常对良好行为的奖励会延迟,因此伽马值对以后的奖励具有更高的重要性(等)被使用。