这两者的定义似乎非常相似,坦率地说,在过去的几年里,我只使用了“主动学习”这个词。两者之间的实际区别是什么?一个是另一个的子集吗?
主动学习和在线学习有什么区别?
主动学习 (AL)是一种弱监督学习(WSL) 技术,您可以同时拥有标记和未标记的数据 [ 1 ]。AL 背后的主要思想是学习者(或学习算法)可以查询“神谕”(例如人类)来标记一些未标记的实例。AL 类似于半监督学习(SSL),这也是一种 WSL 技术,因为两者都处理未标记和标记的数据,但处理方式不同(即 SSL 不使用预言机)。
在线学习是机器学习技术,当新数据被收集或按顺序到达时更新模型,这与批量学习(或离线学习)相反,在批量学习(或离线学习)中,您首先收集多个实例的数据集,然后训练一次模型(尽管您可以稍后更新数据集时更新它)。批量学习是目前训练机器学习模型的常用方法,因为它避免了已知的灾难性干扰(又名灾难性遗忘)等问题,如果您在线学习可能会发生这种问题。例如,众所周知,神经网络在在线学习时会面临这个问题。有增量学习(又名终身学习) 试图解决这种灾难性干扰问题的算法。
正如调查论文“主动学习文献调查”中所提到的:
主动学习背后的关键思想是,如果允许机器学习算法选择从中学习的数据,它可以用更少的训练标签实现更高的准确性。主动学习者可以提出查询,通常以未标记的数据实例的形式由预言机(例如,人工注释者)标记。主动学习在许多现代机器学习问题中具有很好的动机,其中未标记的数据可能很丰富或很容易获得,但标签很难、耗时或昂贵。
在线学习使用按顺序可用的数据。它的主要目标是在每一步更新未来数据的最佳预测器。
因此,在线学习是一种更通用的机器学习方法,与离线学习或批量学习相反,其中整个数据集已经生成并用于训练/更新模型的参数。此外,训练机器学习模型的常用技术是首先进行在线学习,以获得足够的数据量,然后对整个数据集进行离线学习,最后比较两个学习过程产生的结果。
另一方面,主动学习可以通过在线学习[ 1 ]和离线学习来执行,以减少机器学习分类器在训练数据注释过程中的人工注释工作。也就是说,与数据的生成方式和顺序无关,主动学习应该对 Oracle 进行最少的查询,以注释数据子集。