人工智能 - 为什么没有在完整的 RL 问题中使用探索技术，例如 UCB 或 Thompson 采样？ - 吾爱随笔录

为什么没有在完整的 RL 问题中使用探索技术，例如 UCB 或 Thompson 采样？

人工智能强化学习多臂强盗置信上限汤普森抽样探索策略

2021-11-13 15:42:28

为什么不使用探索技术，例如 UCB 或 Thompson 采样，通常用于赌博机问题，而不用于完整的 RL 问题？

蒙特卡洛树搜索在其选择步骤中可能会使用上述方法，但为什么基于值和策略梯度的方法不使用这些技术呢？

3个回答

您确实可以在 RL 设置中使用 UCB。参见Csaba Szepesvari 和 Tor Lattimore所著的Bandit Algorithms一书的38.5 Upper Confidence Bounds for Reinforcement Learning（第 521 页）了解详细信息。

然而，相比 $\epsilon$ -greedy（在 RL 中广泛使用），UCB1 的计算成本更高，因为对于每个动作，您需要为每个时间步（或等效地，在学习期间采取的动作）重新计算这个置信上限。

要了解原因，让我们看一下UCB1 公式

\underset{value estimate}{\underset{⏟}{{\bar{x}}_{j}}} + \underset{UCB}{\underset{⏟}{\sqrt{\frac{2 \ln n}{n_{j}}}}},

$\underbrace{\bar{x}_{j}}_{\text{value estimate}}+\underbrace{\sqrt{\frac{2 \ln n}{n_{j}}}}_{\text{UCB}},$ 在哪里

$\bar{x}_{j}$ 是行动的价值估计 $j$
$n_{j}$ 是动作的次数 $j$ 已采取
$n$ 是到目前为止采取的行动总数

因此，在每个时间步（或采取的新动作），我们需要重新计算每个动作的平方根，这取决于学习过程中演变的其他因素。

所以，时间复杂度比 $\epsilon$ -贪婪可能是UCB1在RL中没有那么多使用的第一个原因，与环境的交互可能是瓶颈。您可能会争辩说，这种重新计算（针对每个动作）也需要在 bandits 中完成。是的，确实如此，但是，在 RL 问题中，您有多个状态，因此您需要为所有状态下的每个动作计算价值估计（即完整的 RL 问题比 bandits 或 contextual bandits 更复杂）。

而且， $\epsilon$ -greedy 在概念上是如此简单，以至于每个人都可以在不到 $5$ 分钟（尽管这不是一个真正的问题，因为两者都很容易实现）。

我目前不熟悉 Thompson 采样，但我想（从我见过的一些实现中）它也没有那么便宜 $\epsilon$ -greedy，您只需要执行 argmax（如果您跟踪最大值，则可以在恒定时间内完成）或对随机整数进行采样（它也相对便宜）。这里有一个关于 Thompson 采样的教程，其中还包括一个专门介绍 RL 的部分，因此您可能需要阅读它。

许多受多臂老虎机问题启发的探索/利用困境技术，例如 UCB1，假设您可以显式枚举所有状态-动作对；事实上，多臂老虎机问题通常只有一个“状态”，然后这个要求变成了只需要枚举动作的能力。

在小到可以用表格方法（没有任何函数逼近）处理的 RL 问题中，这可能仍然是可行的。但是对于许多有趣的 RL 问题，状态和/或动作空间变得如此之大，以至于您必须使用函数逼近器（深度神经网络是一种流行的选择，但也存在其他的）。当您无法枚举您的状态动作空间时，您将无法再跟踪诸如UCB1 和相关方法中通常使用的访问计数之类的事情。

RL 肯定有更先进的探索技术，而不仅仅是 $\epsilon$ - 贪婪，有些甚至可能类似于/从基于强盗的方法中获取灵感。这里有一篇关于深度强化学习探索策略的优秀博文。例如，您可能会认为“基于计数的探索”中描述的一些方法试图解决我上面在函数近似设置中描述的跟踪访问计数的问题。

事实上，我认为这个公式可以直接用于多态问题。

但是，该公式可能与调整奖励偏差重叠，因为它考虑了特定情况下真实期望值的偏差。

相反，这使学习变得不稳定，所以我认为它没有被使用。

其它你可能感兴趣的问题

上一篇什么时候可以将实体称为超参数？下一篇参数模型和非参数模型有什么区别？