人工智能 - 连续任务限制下预期奖励的简化 - 吾爱随笔录

人工智能深度学习强化学习统计人工智能

2021-11-16 00:27:28

我正在阅读 Rich sutton 的书（第 202 页，第 2 版）中连续任务的平均奖励设置。在那里，他对接近无限的极限下的预期奖励进行了简化。我在这张图片中标记了这一点：

书中没有明确提到简化上述表达式的步骤。我在网上搜索以找到解决方案，但没有明确的解释。任何人都可以解释标记点吗？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题