连续任务限制下预期奖励的简化

人工智能 深度学习 强化学习 统计人工智能
2021-11-16 00:27:28

我正在阅读 Rich sutton 的书(第 202 页,第 2 版)中连续任务的平均奖励设置。在那里,他对接近无限的极限下的预期奖励进行了简化。我在这张图片中标记了这一点: 在此处输入图像描述

书中没有明确提到简化上述表达式的步骤。我在网上搜索以找到解决方案,但没有明确的解释。任何人都可以解释标记点吗?

0个回答
没有发现任何回复~