目标检测的通用策略

数据挖掘 机器学习 分类 物体识别 半监督学习 主动学习
2022-02-20 10:47:42

我有大量的对象,其中只有一小部分是感兴趣的类别。该集合最初是未标记的,但可以使用昂贵的操作(例如,人工)添加标签。

目前我使用简单的通用机器学习策略:

  1. 使用手工制作的规则来选择较小的对象子集(从而忽略一小部分有趣的对象)。

  2. 标记较小子集的一部分,并将其用于训练和选择分类算法及其参数。

  3. 将剩余的对象分类在较小的集合中(也可能在大集合中)。

这有两个缺点:

  1. 贴标机仍然需要查看大量不感兴趣的对象,因此只能标记一小部分有趣的对象。

  2. 不在较小集合中的对象在学习阶段会被完全忽略,从而导致一些信息的丢失(分类算法可能在这个补码上效果不佳)。

似乎使用在线学习会更好:即根据之前的标签选择要显示给贴标机的对象。但随后分类算法的结果保留了良好的理论性质(即统计一致性)变得不再明显。

是否有一个在理论上或实际上(或两者兼而有之)有效的主动对象检测的通用框架?我无法从 Wikipedia 文章active learning中获得完整的图片。

1个回答

您处理的框架是半监督的。您拥有大部分未标记的数据,您可以通过手动标记获得一些已标记的数据。

主动学习是应对这种情况的一种方法,将您的标签工作集中在最有益的领域。您可以在 Settles, Burr (2010) 中阅读有关这些技术的调查,“主动学习文献调查” (PDF),计算机科学技术报告 1648。威斯康星大学麦迪逊分校,检索时间:2014-11-18

请注意,即使您使用主动学习来集中标记工作,它仍然是一个重大限制。

还有其他使用半监督框架进行复制的方法,例如co training。关于 co-training 的经典参考文献是“ Blum, A., Mitchell, T. Combining labelled and unlabeled data with co-training. COLT: Proceedings of the Workshop关于计算学习理论,Morgan Kaufmann,1998,第 92-100