人工智能 - 单个样本如何代表梯度时间差异学习中的期望？ - 吾爱随笔录

人工智能机器学习深度学习强化学习数学深度学习

2021-10-26 11:57:02

我正在阅读 Rich Sutton 的书 page-246 中的梯度时间差异学习版本 2（GTD2）。在某些时候，他使用环境中的单个样本表达了整个期望。但是单个样本如何代表整个期望。

我在这张图片中标记了这一点。

1个回答

在大概最终的印刷版本中，最后两个等号是近似值。这只是因为在您采样的大量权重更新中，期望值将被蒙特卡洛逼近。

其它你可能感兴趣的问题