解决n臂老虎机问题的最佳算法?

机器算法验证 机器学习 强化学习 多臂强盗
2022-03-26 09:10:27

我已经阅读了许多用于解决 n 臂老虎机问题的算法,例如 -greedy、softmax 和 UCB1,但是我在排序最适合最小化后悔的方法时遇到了一些麻烦。ϵ

是否有已知的最优算法来解决 n 臂老虎机问题?是否有在实践中表现最佳的算法选择?

1个回答

这是我最近发现的两篇调查论文。我还没有阅读它们,但摘要听起来很有希望。

Joann 的 Vermorel 和 Mehryar Mohri:多臂强盗算法和实证评估(2005)

从摘要:

赌徒的多臂老虎机问题是在一系列试验中决定拉动 K 老虎机的哪一个臂以最大化他的总奖励。许多现实世界的学习和优化问题都可以用这种方式建模。在过去的二十年里,已经提出了几种策略或算法来解决这个问题,但据我们所知,这些算法还没有共同的评估。

Volodymyr Kuleshov 和 Doina Precup:多臂老虎机问题的算法(2000 年)摘自摘要:

其次,大多数算法的性能随着老虎机问题的参数而显着变化。我们的研究确定了每种算法表现良好的设置和表现不佳的设置。