我正在研究强化学习中不同的现有动作选择方法。
我发现了几种方法,例如 epsilon-greedy、softmax、置信上限和 Thompson 采样。
我设法理解了除Thompson sampling之外的每种方法的原理。
我无法理解它的原理和工作方式以及它的动作选择步骤。
如果你能用一个简单的例子向我解释汤普森抽样的原理和功能,我将不胜感激。
我正在研究强化学习中不同的现有动作选择方法。
我发现了几种方法,例如 epsilon-greedy、softmax、置信上限和 Thompson 采样。
我设法理解了除Thompson sampling之外的每种方法的原理。
我无法理解它的原理和工作方式以及它的动作选择步骤。
如果你能用一个简单的例子向我解释汤普森抽样的原理和功能,我将不胜感激。