人工智能 - 简单来说，汤普森抽样是什么？ - 吾爱随笔录

人工智能强化学习汤普森抽样

2021-11-11 23:45:26

我正在研究强化学习中不同的现有动作选择方法。

我发现了几种方法，例如 epsilon-greedy、softmax、置信上限和 Thompson 采样。

我设法理解了除Thompson sampling之外的每种方法的原理。

我无法理解它的原理和工作方式以及它的动作选择步骤。

如果你能用一个简单的例子向我解释汤普森抽样的原理和功能，我将不胜感激。

0个回答

没有发现任何回复~

其它你可能感兴趣的问题