机器算法验证 - 解决n臂老虎机问题的最佳算法？ - 吾爱随笔录

机器算法验证机器学习强化学习多臂强盗

2022-03-26 09:10:27

我已经阅读了许多用于解决 n 臂老虎机问题的算法，例如 -greedy、softmax 和 UCB1，但是我在排序最适合最小化后悔的方法时遇到了一些麻烦。 $\epsilon$

是否有已知的最优算法来解决 n 臂老虎机问题？是否有在实践中表现最佳的算法选择？

1个回答

这是我最近发现的两篇调查论文。我还没有阅读它们，但摘要听起来很有希望。

从摘要：

赌徒的多臂老虎机问题是在一系列试验中决定拉动 K 老虎机的哪一个臂以最大化他的总奖励。许多现实世界的学习和优化问题都可以用这种方式建模。在过去的二十年里，已经提出了几种策略或算法来解决这个问题，但据我们所知，这些算法还没有共同的评估。

其次，大多数算法的性能随着老虎机问题的参数而显着变化。我们的研究确定了每种算法表现良好的设置和表现不佳的设置。

其它你可能感兴趣的问题