我正在学习强化学习,并且遇到过多臂强盗。
为什么这些被称为土匪?他们为什么要武装?
我正在学习强化学习,并且遇到过多臂强盗。
为什么这些被称为土匪?他们为什么要武装?
这实际上在维基百科页面上进行了解释
这是一个经典的强化学习问题,它体现了探索-利用权衡的困境。这个名字来自于想象一个赌徒在一排老虎机(有时被称为“单臂强盗”),他必须决定玩哪台机器,每台机器玩多少次以及以什么顺序玩它们,以及是继续使用当前机器还是尝试不同的机器。
他们甚至有其中一些的照片:
正如亨利在评论中所注意到的,维基百科上有更准确的图像来显示词源:
在 Sutton 和 Bardo 的Reinforcement Learning: An Introduction的第 2.1 节中,他们说:
[...] k 臂老虎机问题,类似于老虎机或“单臂老虎机”,只不过它有 k 个杠杆而不是一个。每个动作选择就像是老虎机的一个杠杆的游戏,奖励是中奖的支出。