我目前正在阅读在线凸优化。有人可以解释一下 Follow-The-Leader 算法及其变体中的领导者到底是什么?
为什么叫追随者?
我目前正在阅读在线凸优化。有人可以解释一下 Follow-The-Leader 算法及其变体中的领导者到底是什么?
为什么叫追随者?
Follow-The-Leader (FTL) 算法是一种解决在线预测问题的简单算法。想象一下,你有一个专家委员会,每个专家都提出了一个策略。在每个时间点,您选择一位专家并遵循他或她的建议,这会在下一个时间步产生一些相关的成本(或奖励)。你的目标是最小化总成本/最大化你的总回报。
Follow-The-Leader 使用一种非常简单的方法:跟踪所有专家在之前所有时间步的表现,然后选择迄今为止表现最好的专家/策略/等,并在下一轮遵循其建议。更新所有内容并再次选择。
这种方法被称为跟随领导者,部分原因是您遵循领先策略(例如,游戏中得分最高的玩家)的(建议)。跟随领队也是传统儿童游戏的名称,每个人都模仿“领队”的动作,这与算法非常接近,可以(轻微地)搞笑。
在在线凸优化的特定情况下,领导者对应于凸优化域中的一个点。所以原则上你有无数的专家。