在什么样的现实生活中,我们可以使用多臂老虎机算法?

机器算法验证 算法 强化学习 多臂强盗
2022-02-07 21:18:30

多臂强盗在您有选择但不确定哪一个会最大化您的幸福的情况下工作得很好。您可以将该算法用于一些现实生活中的情况。例如,学习可以是一个很好的领域:

如果一个孩子正在学习木工并且他不擅长,算法会告诉他/她他/她可能需要继续前进。如果他/她擅长,算法会告诉他/她继续学习该领域。

约会也是一个很好的领域:

你是一个男人,为了追求一位女士而付出了很多“努力”。但是,您的努力绝对不受欢迎。该算法应该“略微”(或强烈)推动您继续前进。

我们可以将多臂老虎机算法用于其他哪些现实情况?

PS:如果问题太笼统,请发表评论。如果有共识,我将删除我的问题。

4个回答

当您玩原始的口袋妖怪游戏(红色或蓝色和黄色)并到达青瓷城时,Team Rocket 老虎机有不同的几率。如果您想优化让 Porygon 真正快速运行,那么 Multi-Arm Bandit 就在那里。

严肃地说,人们谈论在机器学习中选择调整变量的问题。特别是如果你有很多变量,探索与利用就会被谈论。请参阅像 Spearmint 甚至本主题中的新论文,它使用超级简单的算法来选择调整参数(并且方式优于其他调整变量技术)

它们可用于生物医学治疗/研究设计环境。例如,我相信q-learning算法用于顺序、多重分配、随机试验(SMART 试验)。松散地说,这个想法是治疗方案最佳地适应患者正在取得的进展。很明显,这对个体患者来说可能是最好的,但它在随机临床试验中也可能更有效。

它们用于在线广告的 A/B 测试,其中向不同的用户展示不同的广告,并根据结果决定未来展示哪些广告。谷歌研究员Steven L. Scott (2010)在一篇不错的论文中对此进行了描述,还有一个页面目前处于离线状态,但可以通过 archive.org 获得

我在知乎上问过同样的问题

这是答案

  • 为组织的不同部门分配资金

  • 在有限的时间和任意选择阈值的情况下,从一组学生中挑选出表现最好的运动员

  • 在测试新功能的同时最大化网站收益(代替 A/B 测试) 当您没有足够的数据来创建严格的统计模型时,您可以随时使用它们来优化结果。