我有大量的对象,其中只有一小部分是感兴趣的类别。该集合最初是未标记的,但可以使用昂贵的操作(例如,人工)添加标签。
目前我使用简单的通用机器学习策略:
使用手工制作的规则来选择较小的对象子集(从而忽略一小部分有趣的对象)。
标记较小子集的一部分,并将其用于训练和选择分类算法及其参数。
将剩余的对象分类在较小的集合中(也可能在大集合中)。
这有两个缺点:
贴标机仍然需要查看大量不感兴趣的对象,因此只能标记一小部分有趣的对象。
不在较小集合中的对象在学习阶段会被完全忽略,从而导致一些信息的丢失(分类算法可能在这个补码上效果不佳)。
似乎使用在线学习会更好:即根据之前的标签选择要显示给贴标机的对象。但随后分类算法的结果保留了良好的理论性质(即统计一致性)变得不再明显。
是否有一个在理论上或实际上(或两者兼而有之)有效的主动对象检测的通用框架?我无法从 Wikipedia 文章active learning中获得完整的图片。