简单来说,汤普森抽样是什么?

人工智能 强化学习 汤普森抽样
2021-11-11 23:45:26

我正在研究强化学习中不同的现有动作选择方法。

我发现了几种方法,例如 epsilon-greedy、softmax、置信上限和 Thompson 采样。

我设法理解了除Thompson sampling之外的每种方法的原理。

我无法理解它的原理和工作方式以及它的动作选择步骤。

如果你能用一个简单的例子向我解释汤普森抽样的原理和功能,我将不胜感激。

0个回答
没有发现任何回复~