我正在研究一个多臂老虎机问题,我们没有任何关于奖励分配的信息。
我发现许多论文保证了具有已知界限的分布的遗憾界限,以及支持 [0,1] 的一般分布。
我想知道是否有办法在奖励分配对其支持没有任何保证的环境中表现良好。我正在尝试计算非参数公差限制并使用该数字来缩放奖励分配,以便我可以使用本文中指定的算法 2 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)。有人认为这种方法会奏效吗?
如果没有,谁能指出我正确的位置?
非常感谢!