机器学习中的策略是什么?

数据挖掘 机器学习 强化学习 初学者
2021-09-18 08:39:47

当我在阅读论文“ Grounded Action Transformation for Robot Learning in Simulation ”时,我遇到了“策略”一词。有人可以向我解释那实际上是什么(在一般情况下和在论文的特定背景下)?

3个回答

策略是状态-动作映射。“状态”是人工智能中使用的一种形式,代表世界的状态,即代理对世界的看法。动作自然是在那个状态下应该采取什么动作。策略只是将状态映射到操作。

人工智能的基本问题之一是如何在某些任务中随着时间的推移最大化奖励。代理的一种策略是尝试了解系统并预测其行为的结果以及随之而来的奖励。另一种策略是让代理尝试很多事情并记录结果。这些中的任何一个(最终)都允许代理计算出一个好的策略——一旦计算出来,困难的计算工作就完成了,代理只需要“查找”在每个状态下要采取什么行动。

它不是一个机器学习术语,而是一个控制理论学期。“控制策略”是一种启发式方法,它建议一组特定的操作以响应代理(在您的情况下为机器人)和环境的当前状态。在强化学习的情况下,策略由网络权重参数化。更改权重会更改策略,因此权重的分布包括策略的分布,因此为什么在这种情况下拟合模型通常被称为“策略搜索”。使用集成解决这类问题并不少见,在这种情况下,集成的每个组件都包含一个不同的策略来推荐一些动作,然后集成机制从这些不同的策略之一中选择一个动作(例如通过投票或最高分数)或将他们的建议组合成一个行动(例如通过取平均值)。

策略是从“状态”(图像、关节角度、机器人位置)到“动作”(关节位置、关节扭矩、选项)的映射。在该论文中,使用的参数化策略是从状态(机器人状态、关节角度和来自状态观察者的关节速度)到机器人动作(目标关节位置)的映射。