单个样本如何代表梯度时间差异学习中的期望?

人工智能 机器学习 深度学习 强化学习 数学 深度学习
2021-10-26 11:57:02

我正在阅读 Rich Sutton 的书 page-246 中的梯度时间差异学习版本 2(GTD2)。在某些时候,他使用环境中的单个样本表达了整个期望。但是单个样本如何代表整个期望。

我在这张图片中标记了这一点。

在此处输入图像描述

1个回答

在大概最终的印刷版本中,最后两个等号是近似值。这只是因为在您采样的大量权重更新中,期望值将被蒙特卡洛逼近。