众所周知,“Hello World”通常是任何程序员在任何语言/框架中学习/实现的第一个程序。
正如 Aurélien Géron 在他的书中提到的,MNIST通常被称为机器学习的 Hello World,那么强化学习是否存在“Hello World”问题?
我能想到的几个候选人是多武装土匪问题和Cart Pole Env。
众所周知,“Hello World”通常是任何程序员在任何语言/框架中学习/实现的第一个程序。
正如 Aurélien Géron 在他的书中提到的,MNIST通常被称为机器学习的 Hello World,那么强化学习是否存在“Hello World”问题?
我能想到的几个候选人是多武装土匪问题和Cart Pole Env。
MNIST(连同 CIFAR)可能是用于图像分类的监督学习的“Hello World”,但它绝对不是所有机器学习技术的“Hello World”,因为 RL 也是 ML 的一部分,而 MNIST 绝对不是RL 的“Hello World”。
我不认为 RL 存在单一的“Hello World”问题。但是,如果您正在寻找通常用作评估 RL 代理质量的基线的简单问题(或环境),那么我会说您需要从一个地方移动到另一个地方的简单网格世界,即CartPole , MountainCar , Pendulum或这里列出的其他环境经常使用。
您选择训练和测试 RL 代理的环境取决于您的目标。例如,如果您设计了一个应该处理连续动作空间的算法,那么您只能采取离散数量的动作的环境可能不是一个好的选择。
提到的环境非常简单(即玩具问题)。在我看来,我们需要更严肃的环境来展示 RL 对(相对简单的)游戏以外的其他领域的适用性。
虽然没有简单的强化学习 Hello World 问题,但如果您的目标是了解强化学习的基本工作原理并在使用尽可能少的移动部件的情况下看到它,一个简单的建议是在玩具环境中使用表格Q-Learning (就像您建议的 Cart-Pole Env 一样)。
这是这个建议背后的原因
假设我们将 MNIST 的标签解释为“监督学习的Hello World ”,意思是显示进行监督学习的基本步骤:创建模型,加载数据,然后训练。
如果这种解释并不遥远,我们可以说强化学习 (RL) 的一个简单介绍性问题应该侧重于轻松演示一个有效的马尔可夫决策过程 (MDP),它是 RL 决策过程的支柱。因此,这个最小的工作将涉及:观察世界,选择一个动作,如下循环所示:
这张图片缺少 RL 算法学习循环中的两个重要步骤:
大多数时候,我们如何决定更新策略或拟合模型是 RL 算法的不同之处。
因此,建议的第一个问题是帮助您了解 MDP 的运行情况,同时保持步骤 1 和 2 足够简单,以便您了解代理如何学习。表格 Q-Learning 似乎对此很清楚,因为它使用表示为 2D 数组的Q-table来完成这两个步骤。这不应该表明 Q-learning 是一种“Hello World”RL 算法,因为它相对容易理解 :)
但是,除了玩具环境,通常是 Frozen-Lake 和 CartPole,您将无法在其他任何地方使用它的表格版本。一个改进是使用神经网络而不是表格来估计 Q 值。
以下是一些有用的资源:
多臂老虎机也可以很好地向您介绍探索-利用权衡(Q-learning 也是如此),尽管它不会被视为完整的 RL 算法,因为它没有上下文。