强化学习可以“无状态”吗?

机器算法验证 机器学习 深度学习 术语 强化学习
2022-03-31 17:03:33

在稍微了解了 RL 和 Q-Learning 之后,我有点不解,为什么对于许多形式的学习场景来说,似乎没有一个“状态”。

我知道如果我们希望机器人在迷宫中导航,迷宫中的每个位置都是一个状态,并且机器人可以选择动作{上、下、左、右}。我们希望找到一系列动作,引导机器人走出迷宫或获得最高奖励。

但是,似乎在其他情况下,不需要状态。例如,如果两个玩家正在玩石头剪刀布,那么在游戏的每一轮中,每个玩家都会投掷一个手势并获得一些奖励。目标是投掷一系列手势,以随着时间的推移最大化奖励。我不清楚在这种情况下是什么状态。是每单位时间吗?

类似地,假设单个玩家选择了他可以按下的按钮,并且每次他按下一个按钮,都会提供一些奖励。同样,似乎没有涉及到一个状态。只有行动和奖励,就是这样。

有谁知道强化学习是否可以在没有状态的情况下制定?如果是这样,这些类型的 RL 与需要 statese 的 RL 有什么区别?

1个回答

强化学习被表述为一个包含状态、动作和奖励的问题,状态之间的转换受当前状态、选择的动作和环境的影响。这是其定义的一部分(表述为马尔可夫决策过程),因此通常您不会找到仍称为强化学习的无状态变体。

但是,存在相关的无状态问题。多臂强盗,只有行动和奖励。这些解决方案允许基于动作学习奖励,并且可以通过选择最佳动作进行优化(确保您拥有最好的动作,以及您在测试哪个是最佳动作时可以累积的总奖励是主要优化问题)。您的按钮按下示例看起来很像多臂老虎机问题。另一个常见的例子可能是为网站的匿名访问者选择在线广告——尽管通常有大量数据可用,但也有大量数据是隐藏的,一种实用的方法是将点击的概率视为仅取决于内容的选择,这就是网站的动作。

There is a "stateful" variant of multi-armed bandits called contextual bandits - when there is some kind of signal that can be associated with the correct action, but actions taken have no effect on what the next state will be. Contextual bandits have states, actions and rewards, but no transition rules, they can be treated as a set of entirely separate events.

A contextual bandit with added transition rules between states, but no influence from the selected action, is essentially a sub-class of the reinforcement learning problem, and you can use most of the same analysis to predict long term reward and learn optimal behaviour.

为了完整起见,没有代理交互的马尔可夫奖励过程有状态和奖励,但没有动作。可以在这些上使用强化学习算法来预测长期奖励和/或处于特定状态的预期长期价值。

剪刀石头布游戏并不完全适合上述任何问题,因为有两个代理人(尽管如果对手的策略固定为始终以特定不变的概率进行游戏,您可以将其分析为多臂强盗,或者如果有多个这样的对手,或者一个非常容易“告诉”他们从未改变的打法的背景强盗)。通常,将使用博弈论分析剪刀石头布游戏- 它有一个有趣的特征,即纳什均衡是通过使用具有相等的随机策略来实现的13每个选择的概率。

如果你编写了一个剪刀石头布智能体来对抗人类对手,你实际上可能会将其表述为一个强化学习问题,将最后 N 次游戏作为状态,因为它可以学会利用人类玩家的判断力差的随机性。