我正在处理具有大量武器的(随机)多臂强盗(MAB)。
考虑一台根据输入生产比萨饼的比萨饼机(相当于手臂)。(有限的)武器集是(谁)给的在哪里表示一组可能的成分数量.
例如 小号中号大号(奶酪的量)或 (意大利腊肠切片)
因此,使用输入运行披萨机相当于拉臂. 由于排列方式不同,臂数非常大(在 100,000 和 1,000,000 之间)。取决于拉动的手臂,机器生成一个比萨饼(与表示比萨饼有多美味的奖励相关联)。但是,机器的奖励是非静态的。拉着胳膊根据未知(特定于手臂的)分布生成奖励,所有奖励均来自蜜蜂独立日。此外,可以将所有奖励归一化到区间 [0,1]。
上述问题对应于随机 MAB 的标准问题,但其特点是臂数较多。在披萨机的情况下,几天的计算时间可以用来确定最好的披萨,所以迭代次数也可以很大。
在我对处理大量手臂的 MAB 算法的调查中,我遇到了可能需要数千个手臂的研究。
MAB 领域中是否存在专门处理大型问题实例的算法(例如)?