Deep Q 网络中的加权平均值是如何计算的

人工智能 强化学习 深度学习 q学习 dqn 深度神经网络
2021-11-08 06:39:45

我正在阅读萨顿的书,他们说 Q 学习的更新公式来自回报的加权平均值,即

新估计=旧估计+alpha*[返回-旧估计]

所以根据大数定律,这将收敛到最优的真实 q 值

现在,当我们使用 Deep Q 网络时,加权平均是如何计算的,他们所做的只是试图减少目标和估计之间的误差,记住这不是真正的目标,它只是一个无偏的估计,因为它是一个无偏估计,如何计算加权平均值,这是期望值?

有人可以帮我吗?提前致谢

1个回答

比方说Q是旧的估计,Q新的估计,和R是回报。

我们有

Q=Q+α(RQ)

这可以重写为

Q=(1α)Q+αR

什么时候α是一个常数,这是回报的指数加权平均值。如果n是我们得到的样本数量和α=1/n(所以它随着每个样本而减少),我们得到

Q=n1nQ+1nR

这只是代表平均回报。所以,玩α调整估计的权重。