人工智能 - 我如何识别老虎机问题？ - 吾爱随笔录

人工智能强化学习术语定义多臂强盗

2021-10-26 06:53:04

我很难理解强盗问题和非强盗问题之间的区别。

强盗问题的一个例子是代理游戏 $n$ 老虎机的目标是发现哪台老虎机最有可能返回奖励。智能体学习找到最佳的游戏策略，并被允许在每个时间步拉动一台老虎机的杠杆。每台老虎机都遵循不同的获胜概率。

在我对这个问题的解释中，没有状态的概念。代理可能会利用槽结果来确定状态动作值？例如，如果老虎机在显示三个苹果时支付，则这是一个高于未显示三个苹果的状态值的状态值。

为什么在这个老虎机问题的表述中只有一个状态？由于只有一个动作（“拉动老虎机杠杆”），所以只有一个动作。老虎机的动作是拉动控制杆，开始游戏。

我现在更进一步。RL 代理购买 $n$ 如果购买将影响价格，则该资产的份额是不可观察的。下一个状态是购买股票后的资产价格。如果 $n$ 足够大，那么价格就会受到影响，否则对股价的影响是微乎其微的。根据在每个时间步购买的股票数量，这要么是老虎机问题，要么不是。

这不是强盗问题，如果 $n$ 大，股价受影响？如果是强盗问题 $n$ 小，股价不受影响？

对于给定的 RL 问题，混合强盗和非强盗状态是否有意义？如果是这样，那么解决的方法应该是将问题整体视为不是强盗问题？

1个回答

老虎机问题有一种状态，您可以在其中选择一个杠杆 $n$ 拉杆。

为什么在这个老虎机问题的表述中只有一个状态？

存在一种状态，因为状态不会随时间而改变。两个值得注意的后果是（i）拉动杠杆不会改变任何老虎机的内部结构（例如奖励分配）和（ii）您可以不受限制地选择任何杠杆。更一般地说，在这个问题中状态没有顺序方面，因为未来状态不受过去状态、动作和奖励的影响。

这不是强盗问题，如果 $n$ 大，股价受影响？

正确的！如果股价受到影响，那么未来状态将受到过去行为的影响。这是因为每股价格受到影响，这是状态的一个方面。因此，您需要为您的购买计划一个顺序策略。

如果是强盗问题 $n$ 小，股价不受影响？

这完全取决于问题：只要在您购买一些股票之后，购买股票之前的状态保持不变，那么可以。股价不受影响只是要求之一；另一个示例要求是在每个时间步购买的最大股票数量是固定的，与之前购买的股票无关。

对于给定的 RL 问题，混合强盗和非强盗状态是否有意义？如果是这样，那么解决的方法应该是将问题整体视为不是强盗问题？

允许股价受到影响或不受影响是有意义的 $n$ 在同一个问题中。由于一些动作（大 $n$ ) 改变状态，则有多个状态，动作依次影响下一个状态。因此，正如您正确指出的那样，这不是一个整体的强盗问题。

代理可能会利用槽结果来确定状态动作值？

正确的！我建议阅读Sutton 和 Barto的第 2 章，以了解开发此类策略的一些基本算法。

很好地分析了这个问题！为了帮助巩固您的理解并将上述论点形式化，我建议您将此问题的变体重写为 MDP，并确定哪些变体具有多个状态（非老虎机）以及哪些变体具有单一状态（老虎机）。

其它你可能感兴趣的问题