我如何识别老虎机问题?

人工智能 强化学习 术语 定义 多臂强盗
2021-10-26 06:53:04

我很难理解强盗问题和非强盗问题之间的区别。

强盗问题的一个例子是代理游戏n老虎机的目标是发现哪台老虎机最有可能返回奖励。智能体学习找到最佳的游戏策略,并被允许在每个时间步拉动一台老虎机的杠杆。每台老虎机都遵循不同的获胜概率。

在我对这个问题的解释中,没有状态的概念。代理可能会利用槽结果来确定状态动作值?例如,如果老虎机在显示三个苹果时支付,则这是一个高于未显示三个苹果的状态值的状态值。

为什么在这个老虎机问题的表述中只有一个状态?由于只有一个动作(“拉动老虎机杠杆”),所以只有一个动作。老虎机的动作是拉动控制杆,开始游戏。

我现在更进一步。RL 代理购买n如果购买将影响价格,则该资产的份额是不可观察的。下一个状态是购买股票后的资产价格。如果n足够大,那么价格就会受到影响,否则对股价的影响是微乎其微的。根据在每个时间步购买的股票数量,这要么是老虎机问题,要么不是。

这不是强盗问题,如果n大,股价受影响?如果是强盗问题n小,股价不受影响?

对于给定的 RL 问题,混合强盗和非强盗状态是否有意义?如果是这样,那么解决的方法应该是将问题整体视为不是强盗问题?

1个回答

老虎机问题有一种状态,您可以在其中选择一个杠杆n拉杆。

为什么在这个老虎机问题的表述中只有一个状态?

存在一种状态,因为状态不会随时间而改变。两个值得注意的后果是(i)拉动杠杆不会改变任何老虎机的内部结构(例如奖励分配)和(ii)您可以不受限制地选择任何杠杆。更一般地说,在这个问题中状态没有顺序方面,因为未来状态不受过去状态、动作和奖励的影响。

这不是强盗问题,如果n大,股价受影响?

正确的!如果股价受到影响,那么未来状态将受到过去行为的影响。这是因为每股价格受到影响,这是状态的一个方面。因此,您需要为您的购买计划一个顺序策略。

如果是强盗问题n小,股价不受影响?

这完全取决于问题:只要在您购买一些股票之后,购买股票之前的状态保持不变,那么可以。股价不受影响只是要求之一;另一个示例要求是在每个时间步购买的最大股票数量是固定的,与之前购买的股票无关。

对于给定的 RL 问题,混合强盗和非强盗状态是否有意义?如果是这样,那么解决的方法应该是将问题整体视为不是强盗问题?

允许股价受到影响或不受影响是有意义的n在同一个问题中。由于一些动作(大n) 改变状态,则有多个状态,动作依次影响下一个状态。因此,正如您正确指出的那样,这不是一个整体的强盗问题。

代理可能会利用槽结果来确定状态动作值?

正确的!我建议阅读Sutton 和 Barto的第 2 章,以了解开发此类策略的一些基本算法。

很好地分析了这个问题!为了帮助巩固您的理解并将上述论点形式化,我建议您将此问题的变体重写为 MDP,并确定哪些变体具有多个状态(非老虎机)以及哪些变体具有单一状态(老虎机)。