强化学习被表述为一个包含状态、动作和奖励的问题,状态之间的转换受当前状态、选择的动作和环境的影响。这是其定义的一部分(表述为马尔可夫决策过程),因此通常您不会找到仍称为强化学习的无状态变体。
但是,存在相关的无状态问题。有多臂强盗,只有行动和奖励。这些解决方案允许基于动作学习奖励,并且可以通过选择最佳动作进行优化(确保您拥有最好的动作,以及您在测试哪个是最佳动作时可以累积的总奖励是主要优化问题)。您的按钮按下示例看起来很像多臂老虎机问题。另一个常见的例子可能是为网站的匿名访问者选择在线广告——尽管通常有大量数据可用,但也有大量数据是隐藏的,一种实用的方法是将点击的概率视为仅取决于内容的选择,这就是网站的动作。
There is a "stateful" variant of multi-armed bandits called contextual bandits - when there is some kind of signal that can be associated with the correct action, but actions taken have no effect on what the next state will be. Contextual bandits have states, actions and rewards, but no transition rules, they can be treated as a set of entirely separate events.
A contextual bandit with added transition rules between states, but no influence from the selected action, is essentially a sub-class of the reinforcement learning problem, and you can use most of the same analysis to predict long term reward and learn optimal behaviour.
为了完整起见,没有代理交互的马尔可夫奖励过程有状态和奖励,但没有动作。可以在这些上使用强化学习算法来预测长期奖励和/或处于特定状态的预期长期价值。
剪刀石头布游戏并不完全适合上述任何问题,因为有两个代理人(尽管如果对手的策略固定为始终以特定不变的概率进行游戏,您可以将其分析为多臂强盗,或者如果有多个这样的对手,或者一个非常容易“告诉”他们从未改变的打法的背景强盗)。通常,将使用博弈论分析剪刀石头布游戏- 它有一个有趣的特征,即纳什均衡是通过使用具有相等的随机策略来实现的13每个选择的概率。
如果你编写了一个剪刀石头布智能体来对抗人类对手,你实际上可能会将其表述为一个强化学习问题,将最后 N 次游戏作为状态,因为它可以学会利用人类玩家的判断力差的随机性。