有强化学习论文(例如Metacontrol for Adaptive Imagination-Based Optimization)使用(显然,可互换的)术语控制或动作来指代代理在每个时间步对环境的影响。
控制或动作这两个术语之间有什么区别,或者它们(总是)可以互换使用吗?如果有区别,什么时候使用一个术语而不是另一个?
控制一词可能来自与强化学习有关的最优控制理论领域。
有强化学习论文(例如Metacontrol for Adaptive Imagination-Based Optimization)使用(显然,可互换的)术语控制或动作来指代代理在每个时间步对环境的影响。
控制或动作这两个术语之间有什么区别,或者它们(总是)可以互换使用吗?如果有区别,什么时候使用一个术语而不是另一个?
控制一词可能来自与强化学习有关的最优控制理论领域。
没有区别。正如他们经常做的那样,ML 研究人员从其他学科中获取概念,方便地忘记引用来源并更改术语,从而导致很多混乱。RL 是一个教科书示例(双关语)。最优控制研究人员早在 RL 问题之前就已经在研究非常相似的问题,并使用标准符号和术语(对于各州,用于控制)。然后 RL 研究人员来了,几乎改变了一切。
请参阅 Benjamin Recht 的论文A Tour of Reinforcement Learning: The View from Continuous Control (2018),它从控制和优化的角度讨论了强化学习。
另请参阅此推文https://twitter.com/beenwrekt/status/1134536093980864514?s=21(本杰明·雷赫特)关于 Sham Kakade 的介绍。