我正在阅读 Rich sutton 的书(第 202 页,第 2 版)中连续任务的平均奖励设置。在那里,他对接近无限的极限下的预期奖励进行了简化。我在这张图片中标记了这一点:
书中没有明确提到简化上述表达式的步骤。我在网上搜索以找到解决方案,但没有明确的解释。任何人都可以解释标记点吗?