用于一般奖励分配的多武装强盗

机器算法验证 参考 多臂强盗
2022-02-28 08:43:44

我正在研究一个多臂老虎机问题,我们没有任何关于奖励分配的信息。

我发现许多论文保证了具有已知界限的分布的遗憾界限,以及支持 [0,1] 的一般分布。

我想知道是否有办法在奖励分配对其支持没有任何保证的环境中表现良好。我正在尝试计算非参数公差限制并使用该数字来缩放奖励分配,以便我可以使用本文中指定的算法 2 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)。有人认为这种方法会奏效吗?

如果没有,谁能指出我正确的位置?

非常感谢!

1个回答

对 MAB 算法的研究与理论性能保证密切相关。事实上,对这些算法的兴趣重新抬头(回想一下汤普森抽样是在 30 年代提出的)只是在 Auer 2002 年的论文证明之后才真正发生O(log(T))各种 UCB 的遗憾界限和ϵ- 贪心算法。因此,对于奖励分配没有已知界限的问题几乎没有兴趣,因为理论上几乎没有什么可以说的。

即使您提到的简单 Thompson 采样算法也需要 Bernoulli 分布式奖励,即使这样也需要 80 年才能证明对数后悔界!

然而,在实践中,如果您不确定奖励分配,您可以简单地将其缩放到[0,1]除以大数S,如果你观察到上面的奖励S只是价值翻倍,S:=2S. 虽然使用这种方法没有遗憾的保证,但它通常效果很好。

另外,您提到的汤普森采样算法需要伯努利试验,因此您不能使用任意连续奖励。您可以拟合高斯后验分布而不是 Beta,但这对您选择的先验有点敏感,因此您可能希望将其设置为非常平坦。如果您不想证明任何有关您的实现的东西,这可能会很好。