什么是强化学习 (RL) 中的代理?我认为这不是背后的神经网络。RL 中的代理究竟做了什么?
强化学习中的代理到底是做什么的?
人工智能
强化学习
智能代理
2021-11-06 01:42:55
1个回答
RL 中的代理是决定采取什么行动的组件。
为了做出这个决定,代理被允许使用来自环境的任何观察,以及它拥有的任何内部规则。这些内部规则可以是任何东西,但通常在 RL 中,它期望当前状态由环境提供,该状态具有马尔可夫属性,然后使用策略函数处理该状态这决定了采取什么行动。
此外,在 RL 中,我们通常关心处理奖励信号(从环境接收)并优化代理以最大化未来的预期奖励。为此,代理将保留一些受过去收到的奖励影响的数据,并使用这些数据来构建更好的策略。
关于代理定义的一件有趣的事情是代理/环境边界通常被认为非常接近抽象决策单元。例如,对于机器人,代理通常不是整个机器人,而是运行在机器人 CPU 上的特定程序,它对动作做出决定。机器人身体的所有继电器/电机和其他部分都是 RL 术语中环境的一部分。尽管这里经常使用松散的语言,但在大多数描述中,区别可能并不重要——我们会说“机器人移动手臂以实现目标”,而在更严格的 RL 术语中,我们应该说“运行在机器人 CPU 上的代理”指示手臂电机移动以实现目标”。
我想是不是神经网络落后了?
没错,代理不仅仅是神经网络。一个或多个神经网络可能是代理的一部分,并承担估计状态或状态/动作对的价值,甚至直接驱动策略功能的作用。