人工智能 - 强化学习和监督学习中的“探索”是什么意思？ - 吾爱随笔录

强化学习和监督学习中的“探索”是什么意思？

人工智能强化学习术语监督学习超参数优化探索-开发-权衡

2021-10-23 11:51:40

虽然探索是强化学习 (RL) 不可或缺的一部分，但它与监督学习 (SL) 无关，因为后者从一开始就已经提供了数据集。

也就是说，不能将 SL 中的超参数优化 (HO) 视为探索吗？我想得越多，我对探索的真正含义就越感到困惑。如果这意味着在 RL 中探索环境并在 SL 中通过 HO 探索模型配置，那么在这两种情况下，它的最终目标“数学上”不是相同的吗？

2个回答

在强化学习中，探索具有特定的含义，这与利用的含义形成对比，因此存在所谓的探索-利用困境（或权衡）。当您决定访问您尚未访问的州或采取您尚未采取的行动时，您会探索。另一方面，当您决定采取您已经采取的行动并且您知道可以获得多少奖励时，您就会利用。就像生活中一样：也许你喜欢谷物 $A$ ，但你从未尝试过谷物 $B$ ，可能会更好吃。你要做什么：继续吃谷类食品 $A$ （剥削）或者尝试一次 $B$ （勘探）？也许谷物 $B$ 好吃 $A$ ，但是，从长远来看， $B$ 比健康 $A$ .

更具体地说，回想一下，在 RL 中，目标是尽可能多地收集奖励。假设您处于状态 $s$ 并且，在过去，当你处于那种状态时 $s$ , 你已经采取了行动 $a_1$ ，但不是其他动作 $a_2, a_3$ 和 $a_4$ . 你上次采取行动的时间 $a_1$ , 你获得了奖励 $1$ ，这是一件好事，但如果你采取行动怎么办 $a_2, a_3$ 或者 $a_4$ ? 也许你会得到更高的奖励，例如， $10$ ，哪个更好。所以，你需要决定是否再次选择动作 $a_1$ （即是否利用您当前的知识）或尝试另一个可能导致更高（或更少）奖励的行动（即您探索环境）。探索的问题是你不知道会发生什么，也就是说，如果你采取了已经采取的行动，如果你已经获得了可观的奖励，那么你就是在冒险，但有时探索是最好的事情，因为也许到目前为止，您采取的行动并没有带来任何好的回报。

在超参数优化中，您不需要收集任何奖励，除非您将问题表述为强化学习问题（这是可能的））。目标是找到通常在验证数据集上表现良好的最佳超参数集（例如，神经网络的每一层中的层数和神经元数）。一旦你找到了一组超参数，你通常不会谈论利用它，因为如果你使用那组超参数，你将不会持续获得任何类型的奖励，除非你从概念上决定这是这种情况，即，每当您使用该组超参数时，您都在利用该模型在您拥有的测试集上获得良好的性能。您也可以说，当您搜索新的超参数集时，您正在探索搜索空间，但同样，在这种情况下，通常不会区分利用和利用，但您可以很好地谈论它.

在涉及随机性时谈论开发-探索权衡是有道理的，但在超参数优化的情况下可能没有这样的随机性，但它通常是确定性搜索，你可以，如果你喜欢，叫探索。

只是为了补充上面的答案。

事实上，如果您在 RL 中获得的奖励不是随机的，那么您只需进入参数空间，即可保证您获得迄今为止最好的奖励（在评估所有其他状态之后）。因此，例如，如果行动起来是迄今为止最好的一种，那么没有什么能激励你去尝试另一种。

当你在做 naïve HO 时，它可以被视为对空间的探索。环境不是随机的，但是代理事先不知道您将获得的奖励（损失减少）。这足以使探索步骤成为强制性的。因此，假设组合（上、上、下）迄今为止让您损失最大，您需要实际尝试其他组合，以了解它们是否比其他组合更胜一筹。从这个意义上说，你也在探索。

那你什么时候不探索？如果您的 HO 中的下一步是由优化步骤给出的，那么假设是一个函数 $f$ ，那么你就不再探索了。您正在朝着由 $f$ .

因此，您必须确保 $f$ 正确地为您提供最佳的参数组合 - 数学上 $f$ 收敛到全局最优。

所以网格搜索可以看作是探索，贝叶斯优化 HO 没有那么多。

其它你可能感兴趣的问题

上一篇为什么神经网络倾向于被训练来识别多种事物而不仅仅是一个？下一篇是否存在从一组节点中随机选择节点的神经网络（以随机顺序和随机次数）？