我正在阅读萨顿的书,他们说 Q 学习的更新公式来自回报的加权平均值,即
新估计=旧估计+alpha*[返回-旧估计]
所以根据大数定律,这将收敛到最优的真实 q 值
现在,当我们使用 Deep Q 网络时,加权平均是如何计算的,他们所做的只是试图减少目标和估计之间的误差,记住这不是真正的目标,它只是一个无偏的估计,因为它是一个无偏估计,如何计算加权平均值,这是期望值?
有人可以帮我吗?提前致谢
我正在阅读萨顿的书,他们说 Q 学习的更新公式来自回报的加权平均值,即
新估计=旧估计+alpha*[返回-旧估计]
所以根据大数定律,这将收敛到最优的真实 q 值
现在,当我们使用 Deep Q 网络时,加权平均是如何计算的,他们所做的只是试图减少目标和估计之间的误差,记住这不是真正的目标,它只是一个无偏的估计,因为它是一个无偏估计,如何计算加权平均值,这是期望值?
有人可以帮我吗?提前致谢
比方说是旧的估计,新的估计,和是回报。
我们有
这可以重写为
什么时候是一个常数,这是回报的指数加权平均值。如果是我们得到的样本数量和(所以它随着每个样本而减少),我们得到
这只是代表平均回报。所以,玩调整估计的权重。