我正在阅读有关时间差异(TD)学习的内容,我读到:
TD 处理持续的非偶发域
假设持续意味着非终止,那么非偶发或偶发域是什么意思?
我正在阅读有关时间差异(TD)学习的内容,我读到:
TD 处理持续的非偶发域
假设持续意味着非终止,那么非偶发或偶发域是什么意思?
假设持续意味着非终止,非偶发或偶发域是什么意思?
非偶发意味着与继续相同。您找到的引用没有列出两个单独的域,“继续”这个词有点多余。我希望作者把它放在那里是为了强调意义,或者涵盖描述这种环境的两种常见方式。
情节域问题是终止的问题,或者自然地分成可以单独考虑的时间步组。