强化学习和监督学习中的“探索”是什么意思?

人工智能 强化学习 术语 监督学习 超参数优化 探索-开发-权衡
2021-10-23 11:51:40

虽然探索是强化学习 (RL) 不可或缺的一部分,但它与监督学习 (SL) 无关,因为后者从一开始就已经提供了数据集。

也就是说,不能将 SL 中的超参数优化 (HO) 视为探索吗?我想得越多,我对探索的真正含义就越感到困惑。如果这意味着在 RL 中探索环境并在 SL 中通过 HO 探索模型配置,那么在这两种情况下,它的最终目标“数学上”不是相同的吗?

2个回答

在强化学习中,探索具有特定的含义,这与利用的含义形成对比因此存在所谓的探索-利用困境(或权衡)。当您决定访问您尚未访问的州或采取您尚未采取的行动时,您会探索另一方面,当您决定采取您已经采取的行动并且您知道可以获得多少奖励时,您就会利用就像生活中一样:也许你喜欢谷物A,但你从未尝试过谷物B,可能会更好吃。你要做什么:继续吃谷类食品A(剥削)或者尝试一次B(勘探)?也许谷物B好吃A,但是,从长远来看,B比健康A.

更具体地说,回想一下,在 RL 中,目标是尽可能多地收集奖励。假设您处于状态s并且,在过去,当你处于那种状态时s, 你已经采取了行动a1,但不是其他动作a2,a3a4. 你上次采取行动的时间a1, 你获得了奖励1,这是一件好事,但如果你采取行动怎么办a2,a3或者a4? 也许你会得到更高的奖励,例如,10, 哪个更好。所以,你需要决定是否再次选择动作a1(即是否利用您当前的知识)或尝试另一个可能导致更高(或更少)奖励的行动(即您探索环境)。探索的问题是你不知道会发生什么,也就是说,如果你采取了已经采取的行动,如果你已经获得了可观的奖励,那么你就是在冒险,但有时探索是最好的事情,因为也许到目前为止,您采取的行动并没有带来任何好的回报。

在超参数优化中,您不需要收集任何奖励,除非您将问题表述为强化学习问题(这是可能的))。目标是找到通常在验证数据集上表现良好的最佳超参数集(例如,神经网络的每一层中的层数和神经元数)。一旦你找到了一组超参数,你通常不会谈论利用它,因为如果你使用那组超参数,你将不会持续获得任何类型的奖励,除非你从概念上决定这是这种情况,即,每当您使用该组超参数时,您都在利用该模型在您拥有的测试集上获得良好的性能。您也可以说,当您搜索新的超参数集时,您正在探索搜索空间,但同样,在这种情况下,通常不会区分利用和利用,但您可以很好地谈论它.

在涉及随机性时谈论开发-探索权衡是有道理的,但在超参数优化的情况下可能没有这样的随机性,但它通常是确定性搜索,你可以,如果你喜欢,叫探索。

只是为了补充上面的答案。

事实上,如果您在 RL 中获得的奖励不是随机的,那么您只需进入参数空间,即可保证您获得迄今为止最好的奖励(在评估所有其他状态之后)。因此,例如,如果行动起来是迄今为止最好的一种,那么没有什么能激励你去尝试另一种。

当你在做 naïve HO 时,它可以被视为对空间的探索。环境不是随机的,但是代理事先不知道您将获得的奖励(损失减少)。这足以使探索步骤成为强制性的。因此,假设组合(上、上、下)迄今为止让您损失最大,您需要实际尝试其他组合,以了解它们是否比其他组合更胜一筹。从这个意义上说,你也在探索。

那你什么时候不探索?如果您的 HO 中的下一步是由优化步骤给出的,那么假设是一个函数f,那么你就不再探索了。您正在朝着由f.

因此,您必须确保f正确地为您提供最佳的参数组合 - 数学上f收敛到全局最优。

所以网格搜索可以看作是探索,贝叶斯优化 HO 没有那么多。