用于机器学习辅助数据标记的 Python 包

数据挖掘 机器学习 Python 标签 主动学习 贴标签
2022-02-24 12:40:49

在很多情况下,未标记的数据需要转换为标记的数据。最好的解决方案是使用(多个)人类分类器。然而,手动处理所有数据(即在文本挖掘或图像处理中)通常是一项艰巨的任务。有没有可以实时结合人类分类器和机器学习技术的软件?我对 python 包特别感兴趣。

为了说明,从视频流中分类图像是非常重复的。在 100 张图像(来自不同的流)之后,可以使用机器学习算法来预测人类分类器给出的标签。机器分类器可能对一些(未)见过的样本非常有信心,而对其他样本则非常不确定。然后,人类分类器可以专注于不确定的样本,帮助机器分类器更好地学习尚不知道的内容。

1个回答

听起来您正在寻找主动学习在主动学习中,分类器会学习哪些样本对人类标记最有用。

有许多用于主动学习的技术,以及使现有(标准)学习算法适应主动学习设置的许多方法。您提到的特定方法称为“不确定性抽样”,可以应用于任何输出置信度/确定性分数的标准分类器。还有其他选择方法,在某些设置中可能会表现得更好。

您还可以应用无监督方法对样本进行聚类,然后从每个聚类中标记一个或几个样本。