什么是强化学习?

数据挖掘 强化学习
2021-09-28 18:25:15

我熟悉有监督和无监督学习的概念,但最近强化(强化?)学习也出现在我面前几次。任何人都可以通过一些很好的例子来暗示它是什么,与其他两个(或特别是无监督类型)的主要区别是什么?这是一个值得探索的有前途的替代方案,还是只是一些被炒作的利基好奇心?

4个回答

强化学习使用一种简单的学习逻辑,其中网络试图从它获得的反馈中学习。这试图从长远来看优化整体奖励而不是当前奖励。

是阅读它的最佳平台之一。它还包含一些有用的链接。

正如wiki所述,基本的强化学习模型包括:

  • 一组环境状态 S;
  • 一组动作A;
  • 国家之间的过渡规则;
  • 确定转换的标量立即奖励的规则;
  • 描述代理观察的规则。

规则通常是随机的。观察通常涉及与最后一个转换相关的标量立即奖励。在许多作品中,还假设智能体观察当前环境状态,在这种情况下,我们谈论完全可观察性,而在相反的情况下,我们谈论部分可观察性。有时,代理可用的操作集是有限的(例如,您不能花费比您拥有的更多的钱)。

Hima 的回答很好地总结了强化学习的大纲和目的。如果您有兴趣深入了解,我会推荐这本目前免费的书

它可以很好地引导您从基本的强化学习定义到各种解决方案来应对现代挑战。

强化学习是机器学习、决策与控制以及行为心理学的交集。可以从所有三个侧面接近十字路口。让我从各个角度给你一个简短的描述——

机器学习

从 ML 的角度来看,RL 是学习控制的范式。

想想你是如何学会骑自行车或参加一项运动的。这些学习任务没有监督 - 没有人告诉你在板位上做出正确的移动,或者确切地告诉你侧身倾斜以平衡循环的角度量。它们也不是完全无人监督的,因为观察到了一些反馈——在一系列动作之后你是赢还是输,你从循环中掉下来的频率。

因此,RL 正在学习从部分评估反馈中做出好的决定。

控制与决策理论

在控制理论(和人工智能规划)中,假设对世界有完美的了解,目标是找到最佳的行为方式。

然而,对于许多问题,关于世界的知识并不完美。因此,探索世界可以增加我们的知识并最终帮助我们做出更好的决定。

RL 正在平衡顺序决策问题中的探索-开发权衡。

行为心理学

行为心理学的简化目标是解释人类做出决定的原因、时间方式。我们认为人类是理性的代理人,因此心理学也在某种程度上试图解释理性行为。

人们可以研究意见如何形成的生物学原理,这与时间差异学习和资格痕迹密切相关。

RL 是解释人类如何形成意见并学会凭经验做出正确决策的范式。

这是从各个重要角度进行的简短描述。有关详细说明,请浏览这些 -

希望能帮助到你!

尽管前面的答案涵盖了很多内容,可以帮助您开始强化学习 (RL) 领域,但我在这里给您一个说明性的简单示例来理解这个概念以及监督学习 (SL) 和无监督学习 (UL) 之间的关系。

想象一下,你有一个机器人,你想教它开车。假设机器人接收到的每一个道路图像都将是一个输入。为了教机器人,你有一个选择是,你可以在每次它接收到道路图像时指示它转向多少方向盘。这是 SL,因为您将为道路的每个输入状态映射到正确的车轮旋转角度。这里的重点是你知道什么是你的机器人最适合做的事情,并通过例子来教它。

在 RL 设置中,您只需让机器人尝试它想要的任何东西,然后就它所采取的行动给予奖励/惩罚。奖励/惩罚的幅度可能取决于例如对汽车的损坏、长时间停留在同一车道等。奖励/惩罚可能会延迟,而不是机器人采取的每一个动作。

在第一个示例 (SL) 中,机器人试图最小化您的推荐与其选择之间的误差。在第二个例子中,机器人试图通过自己找出最好的方法来最大化其奖励。最好的 SL 方法将引导您找到一个“模仿”您教给它的机器人。在最好的 RL 方法中,机器人的行为在驾驶汽车方面将是最佳的,也可能比你的更好。换句话说,它将创建自己的策略。

总而言之,在 SL 中,您有一位老师会在每个时间步准确地告诉您正确的响应是什么。在 RL 中,您尝试自己找到它,然后老师会给您奖励/惩罚。在 UL,您没有任何外部反馈。所以 RL 介于 SL 和 RL 之间。

我简化了很多术语,只是为了通过示例来概念化学习技术。

希望能帮助到你!