什么是有用的注释工具(如果有)

数据挖掘 分类 工具 注解
2021-09-30 04:03:14

我正在寻找可以帮助我和我的团队注释训练集的工具。我在一个拥有大量数据的环境中工作,其中一些是非结构化或半结构化的。在许多情况下,登记有助于找到有根据的事实。然而,在许多情况下,即使只是用于评估,也需要一个精选集。一个复杂的因素是一些数据不能离开的前提。

我们正在寻找一个对象检测任务的注释,但我预计在不久的将来会有一个图像分割任务、一个文本分类任务和一个情感检测任务。

我正在寻找的是一个可以帮助小组进行注释的系统,最好是通过显示小组进度、相对个人进度以及可能的个人间注释者协议来激励注释者。

4个回答

Doccano是 Prodigy 的一种更简单的开源替代方案。它的原生 python 通过 Django。我发现它适用于简单的实现。

你可以通过explosion.ai尝试Prodigy,spacy 的创建者或者是它的开源替代品。您也可以参考qoura 上的这篇文章

Label Studio 是一个功能强大的开源软件,具有用于注释不同数据类型的 Web 界面。它可以是音频、文本、图像、视频、时间序列源和它们的混合。也支持条件和嵌套注释您编写自己的标签配置,以满足配置系统的需要。

在这里查看:https ://labelstud.io/playground

标注工具 Label Studio

我一直在使用来自 Technische Universität Darmstadt的INCEpTION的spaCy扩展。目前看来还不错。