RL 只是随机逼近理论的一个不太严格的版本吗?

人工智能 强化学习 比较
2021-11-14 07:03:09

在阅读了一些关于强化学习 (RL) 的文献后,似乎随机逼近理论是这一切的基础。

在这个领域有很多实质性和困难的理论需要测度论导致鞅和随机近似。

标准的 RL 文本充其量只是提到了相关的定理,然后继续。

强化学习领域真的是变相的随机逼近理论吗?RL 只是随机逼近理论的一个不太严格的版本吗?

1个回答

强化学习领域真的是变相的随机逼近理论吗?RL 只是随机逼近理论的一个不太严格的版本吗?

不,但强化学习 (RL) 是基于随机逼近理论 (SAT),这两个领域重叠。

在 RL 中,您通常假设可以将潜在问题建模为马尔可夫决策过程 (MDP),目标是找到解决此 MDP 的策略(或价值函数)。要找到此策略,您可以使用随机逼近算法,例如 Q-learning,但 RL 不仅仅是 SAT,通常情况下,不一定有 MDP 的概念。

SAT是对迭代算法的研究,通过从函数中采样来找到函数的极值,以及这些迭代算法在什么条件下收敛。SAT 不仅应用于强化学习,还应用于许多其他领域,例如深度学习。P. Toulis 等人的论文基于随机近似的可扩展估计策略:经典结果和新见解(2015)。提供 SAT 的概述以及与其他领域(包括 RL)的联系。

总而言之,RL 基于 SAT,但 RL 不仅仅是随机逼近算法,因此它们是不同的领域。如果你想研究某些 RL 算法的收敛特性,你可能需要学习 SAT。事实上,例如,表格 Q 学习的典型收敛证明假设了 Robbins-Monro 条件但是,您甚至可以在不知道 RL 是基于 SAT 的情况下进行大量 RL。同样,你可以在不关心 RL 的情况下做很多 SAT。