向非STEM工作同事解释强化学习概念的最简洁、最简单的方法是什么?强化学习背后的主要思想是什么?
什么是强化学习?
人类在这个世界上自由自在,每天都在做事。
每当他们做特定的事情时,他们的大脑都会向他们发送好信号(内啡肽、快乐等)或坏信号(疼痛、悲伤等)。他们通过这些信号了解应该做哪些事情,不应该做哪些事情。
有时信号是即时的,你确切地知道你正在“奖励”或“惩罚”什么(例如,触摸一个热炉,它会受伤)。有时需要更长的时间,并且大脑信号可能有很多可能的原因(甚至是多种原因的组合),但是您可以希望在它发生几次后找出导致它的原因(例如,几小时后胃痛吃特定的食物)。
这基本上就是强化学习。
著名的《强化学习:萨顿和巴托的介绍》一书提供了强化学习的直观描述(每个人都可能能够理解)。
强化学习是学习做什么——如何将情况映射到行动——以最大化数字奖励信号。学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动会产生最大的回报。
在最有趣和最具挑战性的情况下,行动可能不仅会影响直接奖励,还会影响下一个情况,并由此影响所有后续奖励。这两个特征——试错搜索和延迟奖励——是强化学习的两个最重要的区别特征。
在第 3 章,本书还介绍了 agent-environment 接口,它总结了 agent(又名策略)和环境(代表你需要解决的任务/问题)之间的循环交互。
每个 RL 算法都实现了代理和环境之间的循环交互(如上图所示),其中,在每个时间步,代理采取行动, 环境发出奖励,并且代理和环境从状态移动对国家. 这种交互一直持续到满足某些终止标准(例如,代理死亡)。当这种交互发生时,代理应该加强导致更好结果(即更高奖励)的行动。
强化学习可以用几个方程来解释。但是,我认为这不是您要查看的内容,因为该解释应该针对具有非 STEM 背景的人。并不是说非 STEM 的人无法理解数学方程式,但在我看来,用文字和例子更容易获得直觉。
强化学习是关于通过重复执行动作、观察来自环境的反馈并根据该反馈调整未来动作来学习最佳行为。
让我们通过学习如何下棋的具体例子来分解最后一句话:
想象你坐在棋盘前,不知道如何下棋。您想学习的最佳行为是为了赢得比赛而执行的动作。因此,您开始学习游戏,先玩一些动作(动作),然后观察棋盘上发生的事情(环境),然后确定哪些动作能让您更接近胜利或让您在棋盘上获得更好的位置(反馈)。因此,在未来的游戏中,您将更喜欢在之前的游戏中给您带来积极结果的动作。
诚然,如果您一开始没有老师帮助您,那么这是一个非常缓慢的学习过程,并且您必须玩很多游戏才能获得第一场胜利。但这本质上是计算机(有时是某种意义上的人类)通过强化学习来学习做某些事情的方式。导致积极体验的行为被收集、记忆并因此得到加强。