考虑以下问题陈述:
你给了行动。您可以执行其中任何一个。每个动作都会让你有一定的成功率。挑战是执行给定的有限数量的动作以获得最大的成功。
在这里,我们可以执行操作并慢慢确定每个操作成功的可能概率。我对这个问题毫无疑问。
现在考虑以下问题的变体:
你给了行动。您可以执行其中任何一个。每个动作都会让你有一定的成功率。你也得到了一套概率,但不会告诉您哪个概率与哪个动作相关联。挑战在于利用这些额外的信息来执行给定的有限数量的操作以获得最大的成功。
我对这个问题有疑问,我们如何将概率映射到行动?我可以做一些足够数量的动作来收集经验概率,他们会尝试将给定的概率与具有最接近经验概率的动作联系起来。但是,文献中是否有针对此类问题的算法?