分布不是与时间无关吗?i被选中?
您描述的两个参考文献中的每一个都假设了Robbins (1952)提出的随机老虎机问题的背景,其中每个老虎机的潜在奖励分布是固定的。因此,是的,基础分布与当前时间无关。
是不是因为选择的手臂在一步t(即It) 是一个随机变量并且X取决于它?
奖励是一个随机变量,取决于当时选择的手臂t. 由于每个手臂都有一个潜在的奖励分布,因此该指数It是一个随机变量,指定我们正在拉的特定手臂,以及索引t表示我们拉动手臂的时间步长。
为什么是t在索引中使用了两次(即It,t)?
注意t使用了两次,但观察值It 不编码关于它被选择的时间的任何信息。例如,如果Im=5, 然后XIm, m=X5, m. 如果我们去掉第二个下标,那么我们就没有办法区分了X5, m符号上来自X5, n(在哪里In ≠ m=5)。两种不同的奖励X5, m和X5, n将映射到相同的奖励X5符号上。乍一看,这引入了许多潜在的符号问题,例如丢失了每条手臂被拉动的次数。
为什么不简单地使用Xi代替XIt, t(在奖励方面)?不应该XIt就足够了,因为XIt, m和XIt, n来自同一个分布?
诚然,可能有一些方法可以绕过某些算法的额外下标。例如,也许您正在使用一种算法,其中将来自每条手臂的过去奖励进行平均,以得出每条手臂的预期奖励的估计值(参见Sutton 和 Barto的第 2.2 节)。这可能需要一组存储每条手臂过去奖励的列表,或者可能需要计算每条手臂被拉出的数量以及预期奖励的相关当前估计(参见 Sutton 和 Barto 的第 2.4 节)。但是,如果我们最初在符号中包含第二个时间下标,这些方法会引入更多不必要的参数(例如,拉动的每条手臂的计数、每条手臂的预期奖励的当前估计、对应于手臂的每个奖励列表的标签等)。我见过的大多数关于多臂老虎机的基本方程要么严重依赖要么完全依赖于奖励随机变量(例如后悔的定义)。将时间索引保存在单个随机变量中通过防止将时间索引委托给另一个随机变量、数据结构等的需要来促进各种来源之间的简洁性和一致性,即使特定的实现或上下文可能会从其他符号中受益。
除了 Robbins (1952) 提出的上下文之外,双下标符号还具有推广到其他上下文的好处。其中包括非平稳奖励分布(参见 Sutton 和 Barto 的第 2.5 节)、时间折扣和替代强盗过程系列等(有关最后两个扩展的信息,请参见本书的第 2.2-2.4 节)。