什么是学习代理?

人工智能 术语 定义 智能代理 学习代理
2021-10-19 13:45:25

什么是学习代理,它是如何工作的?学习代理的例子有哪些(例如,在机器人领域)?

1个回答

学习代理可以定义为随着时间的推移,基于与环境(或经验)的交互来提高其性能(可以根据上下文以不同方式定义)的代理。

人是学习代理的一个例子。例如,一个人可以学会骑自行车,尽管在出生时没有人拥有这项技能。

Norvig 和 Russell 所著的 AIMA 书(第 3 版)的第2.4.6 节学习代理(第 54 页)定义了一个学习代理,如下所示。

一个学习代理可以分为四个概念组件,如图 2.15 所示。

在此处输入图像描述

四个组成部分是

  1. 学习元素:改进性能元素(例如Q-learning
  2. 性能元素:选择在环境中采取的行动(这类似于模型,例如神经网络,它包含在环境中行动的知识或规则)
  3. 评论家:向学习元素提供反馈(基于一些性能指标),以改进性能元素(这就是您评估潜在改进的方式)
  4. 问题生成器:建议将导致新的信息体验的行动(这将是强化学习中的行为策略)

乍一看,这个定义似乎与上面给出的定义无关,但它们是等价的。Norvig 和 Russell 对学习代理的定义建立在他们对代理的定义之上。此外,正如我在上面所写的,如果您熟悉 RL,这四个组件可以与强化学习中的常见概念相关联(例如 Q-learning、价值函数/策略、目标、行为策略)。本书只是使用不同的名称来指代相同或相似的概念。

为了让定义更清晰,Norvig 和 Russell 还提供了一个例子

为了使整体设计更加具体,让我们回到自动出租车的例子。性能要素包括出租车选择其驾驶行为的知识和程序的集合使用这种性能元素,出租车在路上行驶并行驶。批评者观察世界并将信息传递给学习元素。例如,出租车在三个车道上快速左转后,评论家观察到其他司机使用的令人震惊的语言。从这个经验来看,学习元素能够制定一条规则,说这是一个坏动作,并且通过安装新规则来修改性能元素。问题产生可能会识别某些需要改进的行为领域并提出实验建议,例如在不同条件下在不同路面上尝试刹车。

这个答案提供了机器学习领域和 ML算法的更多定义,这与学习代理不完全相同,因为代理的概念还暗示或强调使用带有传感器、执行器代理程序(将观察结果转换为动作),但是这个答案和另一个答案中给出的定义彼此一致。