我们为什么使用X一世吨, tXIt,t和v一世吨vIt表示收到的奖励和时间步长吨t以及所选手臂的分布一世吨It?

人工智能 文件 符号 多臂强盗 置信上限
2021-11-04 10:08:36

我正在对经典(随机)MAB 进行一些介绍性研究。然而,我对常见的符号有点困惑(例如在Auer (2002)Bubeck 和 Cesa-Bianchi (2012)的流行论文中)。

与后一项研究一样,让我们​​考虑一个具有有限臂数的 MABi{1,...,K}, 代理在每个时间步选择t=1,...,n一只手臂It产生奖励XIt,t根据分布vIt.

在我的理解中,每个手臂都有一个固有的分布,这是代理所不知道的。因此,我想知道为什么符号vIt使用而不是简单地使用vi? 分布不是与时间无关吗?i被选中?

此外,我问自己:为什么不简单地使用Xi代替XIt,t(在奖励方面)。是不是因为选择的手臂在一步t(即It) 是一个随机变量并且X取决于它?如果我是对的,为什么是t在索引中使用了两次(即It,t)? 不应该XIt就足够了,因为XIt,mXIt,n来自同一个分布?

2个回答

分布不是与时间无关吗?i被选中?

您描述的两个参考文献中的每一个都假设了Robbins (1952)提出的随机老虎机问题的背景,其中每个老虎机的潜在奖励分布是固定的。因此,的,基础分布与当前时间无关。

是不是因为选择的手臂在一步t(即It) 是一个随机变量并且X取决于它?

奖励是一个随机变量,取决于当时选择的手臂t. 由于每个手臂都有一个潜在的奖励分布,因此该指数It是一个随机变量,指定我们正在拉的特定手臂,以及索引t表示我们拉动手臂的时间步长。

为什么是t在索引中使用了两次(即It,t)?

注意t使用了两次,但观察值It 不编码关于它被选择的时间的任何信息例如,如果Im=5, 然后XIm, m=X5, m. 如果我们去掉第二个下标,那么我们就没有办法区分了X5, m符号上来自X5, n(在哪里In  m=5)。两种不同的奖励X5, mX5, n将映射到相同的奖励X5符号上。乍一看,这引入了许多潜在的符号问题,例如丢失了每条手臂被拉动的次数。

为什么不简单地使用Xi代替XIt, t(在奖励方面)?不应该XIt就足够了,因为XIt, mXIt, n来自同一个分布?

诚然,可能有一些方法可以绕过某些算法的额外下标。例如,也许您正在使用一种算法,其中将来自每条手臂的过去奖励进行平均,以得出每条手臂的预期奖励的估计值(参见Sutton 和 Barto的第 2.2 节)。这可能需要一组存储每条手臂过去奖励的列表,或者可能需要计算每条手臂被拉出的数量以及预期奖励的相关当前估计(参见 Sutton 和 Barto 的第 2.4 节)。但是,如果我们最初在符号中包含第二个时间下标,这些方法会引入更多不必要的参数(例如,拉动的每条手臂的计数、每条手臂的预期奖励的当前估计、对应于手臂的每个奖励列表的标签等)。我见过的大多数关于多臂老虎机的基本方程要么严重依赖要么完全依赖于奖励随机变量(例如后悔的定义)。将时间索引保存在单个随机变量中通过防止将时间索引委托给另一个随机变量、数据结构等的需要来促进各种来源之间的简洁性和一致性,即使特定的实现或上下文可能会从其他符号中受益。

除了 Robbins (1952) 提出的上下文之外,双下标符号还具有推广到其他上下文的好处。其中包括非平稳奖励分布(参见 Sutton 和 Barto 的第 2.5 节)、时间折扣和替代强盗过程系列等(有关最后两个扩展的信息,请参见本书的第 2.2-2.4 节)。

分布不是与时间无关吗?i被选中?

是的,但你不知道当时选择了哪只手臂t,就是这样It代表。vi将代表i手臂分布,而您想要当时选择的手臂分布t,即vIt.

XIt,t用来代表你当时选择的手臂t以及你选择它的时间。想象一下,如果我们在各个时间步 {1,2,5,2,4} 选择以下手臂,那么您在时间 3 获得的奖励(假设在我的示例中时间从 1 开始)将是X5,3. 你需要这个符号,因为每次你拉手臂i你会得到不同的奖励,因为奖励是一个随机变量(除非假设是确定性奖励,但那不会很有趣)。

自从我阅读论文以来已经有一段时间了,但我假设手臂的分布是平稳的,但是这种表示法更通用,并且允许非平稳分布。