什么时候应该使用强化学习与 PID 控制?

人工智能 强化学习 人工智能设计 控制理论
2021-11-04 20:30:39

在为OpenAIGym上的月球着陆器等问题设计解决方案时,强化学习是一种诱人的手段,可以让智能体充分控制动作以成功着陆。

但是,在哪些情况下,控制系统算法(例如PID 控制器)能够胜任强化学习(如果不是更好的话)呢?

这样的问题在解决这个问题的理论方面做得很好,但在解决实际部分方面做得很少。

作为一名人工智能工程师,问题域的哪些元素应该向我表明 PID 控制器不足以解决问题,而应该使用强化学习算法(反之亦然)?

1个回答

我认为评论基本上是在正确的轨道上。

PID 控制器对于在连续动态系统中寻找最优策略很有用,而且这些域通常也被用作 RL 的基准,正是因为有一个容易推导出的最优策略。然而,在实践中,您显然更喜欢任何可以轻松设计的领域的 PID 控制器:控制器的行为很好理解,而 RL 解决方案通常难以解释。

RL 的亮点在于我们知道好的行为是什么样的(即,我们知道奖励函数),并且我们知道传感器输入是什么样的(即,我们可以完全准确地以数字方式描述给定状态),但我们几乎没有或者不知道我们实际上希望代理做什么来获得这些奖励。

这是一个很好的例子:

  • 如果我想让特工使用最少的燃料从敌机前方以已知的运动模式操纵飞机到后方,我更喜欢使用 PID 控制器

  • 如果我想制作一个代理来控制一架飞机并击落一架敌机,并留下足够的燃料降落,但没有正式描述敌机可能如何攻击(也许人类专家会在模拟中驾驶它来对抗我们的代理) ,我更喜欢 RL