我已经阅读了许多用于解决 n 臂老虎机问题的算法,例如 -greedy、softmax 和 UCB1,但是我在排序最适合最小化后悔的方法时遇到了一些麻烦。
是否有已知的最优算法来解决 n 臂老虎机问题?是否有在实践中表现最佳的算法选择?
我已经阅读了许多用于解决 n 臂老虎机问题的算法,例如 -greedy、softmax 和 UCB1,但是我在排序最适合最小化后悔的方法时遇到了一些麻烦。
是否有已知的最优算法来解决 n 臂老虎机问题?是否有在实践中表现最佳的算法选择?
这是我最近发现的两篇调查论文。我还没有阅读它们,但摘要听起来很有希望。
Joann 的 Vermorel 和 Mehryar Mohri:多臂强盗算法和实证评估(2005)
从摘要:
赌徒的多臂老虎机问题是在一系列试验中决定拉动 K 老虎机的哪一个臂以最大化他的总奖励。许多现实世界的学习和优化问题都可以用这种方式建模。在过去的二十年里,已经提出了几种策略或算法来解决这个问题,但据我们所知,这些算法还没有共同的评估。
Volodymyr Kuleshov 和 Doina Precup:多臂老虎机问题的算法(2000 年)摘自摘要:
其次,大多数算法的性能随着老虎机问题的参数而显着变化。我们的研究确定了每种算法表现良好的设置和表现不佳的设置。