单个样本如何代表梯度时间差异学习中的期望?
人工智能
机器学习
深度学习
强化学习
数学
深度学习
2021-10-26 11:57:02
1个回答
在大概最终的印刷版本中,最后两个等号是近似值。这只是因为在您采样的大量权重更新中,期望值将被蒙特卡洛逼近。
在大概最终的印刷版本中,最后两个等号是近似值。这只是因为在您采样的大量权重更新中,期望值将被蒙特卡洛逼近。