人工智能 - 强化学习中的控制和动作之间有什么区别吗？ - 吾爱随笔录

强化学习中的控制和动作之间有什么区别吗？

人工智能强化学习术语比较控制理论

2021-10-20 18:12:30

有强化学习论文（例如Metacontrol for Adaptive Imagination-Based Optimization）使用（显然，可互换的）术语控制或动作来指代代理在每个时间步对环境的影响。

控制或动作这两个术语之间有什么区别，或者它们（总是）可以互换使用吗？如果有区别，什么时候使用一个术语而不是另一个？

控制一词可能来自与强化学习有关的最优控制理论领域。

1个回答

没有区别。正如他们经常做的那样，ML 研究人员从其他学科中获取概念，方便地忘记引用来源并更改术语，从而导致很多混乱。RL 是一个教科书示例（双关语）。最优控制研究人员早在 RL 问题之前就已经在研究非常相似的问题，并使用标准符号和术语（ $x$ 对于各州， $u$ 用于控制）。然后 RL 研究人员来了，几乎改变了一切。

请参阅 Benjamin Recht 的论文A Tour of Reinforcement Learning: The View from Continuous Control (2018)，它从控制和优化的角度讨论了强化学习。

另请参阅此推文https://twitter.com/beenwrekt/status/1134536093980864514?s=21（本杰明·雷赫特）关于 Sham Kakade 的介绍。

其它你可能感兴趣的问题

上一篇为什么我们要对深度神经网络中的数据进行归一化？下一篇神经网络：CNN 确认层/过滤器算法