拥有大量武器的多武装土匪

人工智能 强化学习 多臂强盗 epsilon-贪婪策略 置信上限
2021-10-19 08:30:53

我正在处理具有大量武器的(随机)多臂强盗(MAB)。

考虑一台根据输入生产比萨饼的比萨饼机i(相当于手臂)。(有限的)武器集K是(谁)给的K=X1×X2×X3×X4在哪里Xj表示一组可能的成分数量j.

例如 X1={小号中号大号}(奶酪的量)或 X2={0,1,2,3,4,5,6,7,8,9,10}(意大利腊肠切片)

因此,使用输入运行披萨机i相当于拉臂iK. 由于排列方式不同,臂数|K|非常大(在 100,000 和 1,000,000 之间)。取决于拉动的手臂i,机器生成一个比萨饼(与表示比萨饼有多美味的奖励相关联)。但是,机器的奖励是非静态的。拉着胳膊i根据未知(特定于手臂的)分布生成奖励Pi,所有奖励均来自Pi蜜蜂独立日。此外,可以将所有奖励归一化到区间 [0,1]。

上述问题对应于随机 MAB 的标准问题,但其特点是臂数较多。在披萨机的情况下,几天的计算时间可以用来确定最好的披萨,所以迭代次数也可以很大。

在我对处理大量手臂的 MAB 算法的调查中,我遇到了可能需要数千个手臂的研究。

MAB 领域中是否存在专门处理大型问题实例的算法(例如|K|>100,000)?

1个回答

在不了解您遇到的参考文献的情况下,我假设作者正在考虑 MAB 的常见应用(规划、在线学习等),这些应用的时间范围通常很小。在此类应用中,我们通常无法承受较大的平均遗憾,这对于标准 MAB 算法来说是不可避免的,因为|K|因素。

根据应用程序或您可以对问题施加的其他限制,有几项工作考虑了结构化随机 MAB,其中有比悲观的更好的保证K界限。结构化 MAB 的一种变体是在图 [1] 上学习,其中人们可以获得随β(G), 在哪里β(G)是图的独立数G.

[1] F. Liu、Z. Zheng、N. Shroff,“无图图形强盗的汤普森采样分析”,ArXiv。2018 年。