策略学习和在线系统识别是一样的吗?

人工智能 控制问题
2021-10-18 15:35:54

在一些较新的机器人技术文献中,系统识别一词具有一定的含义。这个想法不是使用固定模型,而是动态创建模型。所以它等于一个无模型的系统识别。也许对所有人来说都是一个简短的评论,谁不知道这个想法是什么。系统识别意味着,创建一个预测模型,更好地称为正向数值模拟。该模型接受输入并计算结果。它与物理引擎并不完全相同,但两者都使用循环中的模型运行,该模型实时生成输出。

但什么是政策学习?在某处,我读到策略学习等于在线系统识别。那是对的吗?如果是,那么它就没有多大意义,因为强化学习的目标是学习策略。策略是控制机器人的东西。但是如果目标是进行系统识别,那么策略就等于预测模型。也许有人可以降低对不同术语的混淆......

Example Q-learning 是强化学习的一个很好的例子。这个想法是构建一个 q 表,该表控制机器人的运动。但是,如果 online-system-identification 等于策略学习并且这等于 q-learning,那么 q-table 不包含机器人的伺服信号,而只提供系统的预测。这意味着,q-table 相当于一个 box2d 物理引擎,它可以说机器人将拥有的 x/y 坐标。这种解释没有多大意义。或者它是否有意义并且政策的定义完全不同?

2个回答

摘自《强化学习,简介》(R. Sutton,A. Barto)一书:

术语系统识别用于我们所谓的模型学习的自适应控制(例如,Goodwin 和 Sin,1984;Ljung 和 S̈oderstrom,1983;Young,1984)。

模型学习是指学习模型(环境)的行为。强化学习可以分为两种类型:

  1. 基于模型——首先我们建立一个环境模型,然后进行控制。

  2. 无模型- 我们不尝试对环境的行为进行建模。

策略学习是学习最优策略的行为。你可以通过两种方式做到这一点:

  1. 政策学习- 了解政策π通过从相同的策略中抽样。

  2. 政策外学习——了解政策π来自其他一些策略的经验(例如,观看不同的代理玩游戏)。

系统识别和策略学习是系统的两个完全不同的方面。

系统识别基本上是找出传递函数、硬件参数、确定结果的不同组件的行为的关系和性质,当受到控制信号的影响时。通常,硬件制造商在其数据表中包含所有配置详细信息,它们要么用作直接系统参数,要么用于导出其他参数。在线系统识别是确定参数集的过程,而不是使用已经可用的测量值,而是使用实时通过的数据。

政策学习是将行动与结果相关联并辨别哪些行动是好是坏的过程。策略学习是关于确定在所有情况下都能产生预期结果的控制策略。

SI 就像曲线拟合,在策略学习使用闭环系统重复更新时,在已有数据上确定曲线方程(已经知道多项式次数,因为您需要知道要尝试估计的参数的结构)您的控制信号,直到您找到一个满足您的性能和操作需求的信号。

在机器人技术背景下,机器人操纵器应该具有定义系统动力学的质量(H)、科里奥利(C)和重力(G)矩阵,基本上将机器人的物理特性与施加在关节上的扭矩和提示如下等式所示。在线参数识别就是利用转矩、HCG矩阵的已知结构(H为anxn矩阵,n为自由度等)动力学方程,然后确定数值。类似的在线参数识别也用于摩擦分量,如静态和库仑摩擦以及粘性摩擦系数。最小二乘法通常用于相同的情况。

H(q)q¨(t)+C(q,q˙)q˙(t)+Bq˙+g(q)=τ

就 RL 而言,策略学习基本上是学习将产生期望的良好行为的一组动作。Q-learning 是无模型学习,因此没有基于输入的预测行为。在这里,获得输入和模拟结果,根据他们产生的期望结果的部分和多少,给予他们一定程度的信念(正面和负面以及高低奖励)。随着时间的推移,学习到的策略最终是为了达到预期结果而应该运行的一系列动作。Q-table 与系统识别没有任何关系,它是一个建模步骤,它是一个控制步骤。因此,对于手臂,学习的策略将是应该以什么顺序将哪些关节驱动到什么角度来完成拾取和放置任务。