问题
我有 66 台老虎机。对于他们每个人,我有 7 种可能的动作/武器可供选择。在每次试验中,我必须为 66 个插槽中的每一个选择 7 个动作中的一个。奖励取决于这些动作的组合,但槽不相等,即为不同槽拉同一条手臂会得到不同的结果。我不关心初始状态或特征向量,因为问题总是从相同的设置开始(它不是上下文的)。我的奖励取决于我如何同时拉动所有 66 个强盗的 7 个手臂中的一个,正如前面所说,每个插槽都有其独特的属性来计算总奖励。基本上,动作空间是一个单热编码的 66x7 矩阵。
我的解决方案
我忽略了一个事实,即我不关心特征向量或状态,我使用带有基本策略梯度算法的深度神经网络来处理这个问题,根据我得到的奖励,我直接增加每个动作的概率。状态根本不会改变,因此 NN 总是接收相同的输入。这个解决方案确实有效地找到了一个近似最优的策略,但是,它的计算量非常大,而且有些东西告诉我我过度解决了这个问题。
但是,我看不出如何将标准解决方案应用于 MAB,例如 epsilon-greedy。我需要不同的“老虎机”之间的同时性,并且,如果我只是将每个可能的排列视为不同的动作,为了用贪婪的方法探索它们,我会得到太多的动作(按)。我在文献中没有发现类似于这种多臂多强盗问题的东西,如果曾经考虑过类似的事情,我一无所知 - 也许我想多了,这可以以某种方式简化为正常的 MAB?