什么是学习代理,它是如何工作的?学习代理的例子有哪些(例如,在机器人领域)?
什么是学习代理?
人工智能
术语
定义
智能代理
学习代理
2021-10-19 13:45:25
1个回答
学习代理可以定义为随着时间的推移,基于与环境(或经验)的交互来提高其性能(可以根据上下文以不同方式定义)的代理。
人是学习代理的一个例子。例如,一个人可以学会骑自行车,尽管在出生时没有人拥有这项技能。
Norvig 和 Russell 所著的 AIMA 书(第 3 版)的第2.4.6 节学习代理(第 54 页)定义了一个学习代理,如下所示。
一个学习代理可以分为四个概念组件,如图 2.15 所示。
四个组成部分是
- 学习元素:改进性能元素(例如Q-learning)
- 性能元素:选择在环境中采取的行动(这类似于模型,例如神经网络,它包含在环境中行动的知识或规则)
- 评论家:向学习元素提供反馈(基于一些性能指标),以改进性能元素(这就是您评估潜在改进的方式)
- 问题生成器:建议将导致新的信息体验的行动(这将是强化学习中的行为策略)
乍一看,这个定义似乎与上面给出的定义无关,但它们是等价的。Norvig 和 Russell 对学习代理的定义建立在他们对代理的定义之上。此外,正如我在上面所写的,如果您熟悉 RL,这四个组件可以与强化学习中的常见概念相关联(例如 Q-learning、价值函数/策略、目标、行为策略)。本书只是使用不同的名称来指代相同或相似的概念。
为了让定义更清晰,Norvig 和 Russell 还提供了一个例子
为了使整体设计更加具体,让我们回到自动出租车的例子。性能要素包括出租车选择其驾驶行为的知识和程序的集合。使用这种性能元素,出租车在路上行驶并行驶。批评者观察世界并将信息传递给学习元素。例如,出租车在三个车道上快速左转后,评论家观察到其他司机使用的令人震惊的语言。从这个经验来看,学习元素能够制定一条规则,说这是一个坏动作,并且通过安装新规则来修改性能元素。问题产生器可能会识别某些需要改进的行为领域并提出实验建议,例如在不同条件下在不同路面上尝试刹车。
这个答案提供了机器学习领域和 ML算法的更多定义,这与学习代理不完全相同,因为代理的概念还暗示或强调使用带有传感器、执行器和代理程序(将观察结果转换为动作),但是这个答案和另一个答案中给出的定义彼此一致。
其它你可能感兴趣的问题