数据挖掘 - BRAT可以用于文本分类标注吗？ - 吾爱随笔录

BRAT可以用于文本分类标注吗？

数据挖掘 nlp

2021-09-27 00:23:30

BRAT（brat rapid annotation tool）可用于命名实体注释：

BRAT可以用于文本分类标注吗？即，给定文本，注释它是否属于某些类？

3个回答

根据他们的文档，BRAT 做了很多事情，但文本分类不是其中之一。BRAT对此“太强大了”。我建议您改用Prodigy之类的工具。

这应该可以满足您的需求。

BRAT 在设计时并未考虑分类任务。

就像 Valentin 提到的，Prodigy 是一个更现代的注释管理系统，非常适合分类任务工作流程。我们一直在工作中对其进行测试——它很有希望，但也有其局限性。

您提到了众包的潜在需求——我相信您了解 AWS Mechanical Turk。您还谈到了数据/注释完整性验证 - 您最好的选择可能是开发自己的注释管理系统来满足这些需求。我们有非常相似的要求，这是我们选择的路线。

我们在 Prodigy 1.0 版本之前对其进行了评估——它有很多怪癖，而且当时并非所有功能都可用。

它似乎非常擅长快速原型设计和构建 MVP，但不太适合严重的大规模注释任务。能够对机器生成的注释快速回答“是/否”非常棒，但根据我们在许多任务中的经验，这些通常不够准确，手动注释会更有效。似乎我们现在可以将自己的模型加载到其中，因此如果我们将开发时间投入到 Prodigy 的框架中，就有可能改进这一点。

缺少的另一个非常重要的方面是任何类型的分布式注释器管理系统 - 多用户、冲突解决等。此外，不支持完整性/验证检查。Prodigy 团队表示一切都在进行中：

我们还在开发一个扩展库 Prodigy Annotation Manager，它将与 Prodigy 集成，并允许您设置复杂的注释项目、管理多个注释器、实施质量控制并通过管理控制台跟踪进度。您可以注册我们的邮件列表以获取有关私人测试版的通知。

编辑：刚刚偶然发现WebAnno，这可能值得一看。

我认为这小子适合 NER、PosTag 等一些任务......

对于分类问题，我们可以将关键字添加到用制表符分隔的文本中。之后，我们可以为标签进行注释。例如：标签句子我们可以为单词注释：标签，有一些类谢谢

其它你可能感兴趣的问题

上一篇用于回归的 Pandas 分类变量编码（单热编码与虚拟编码）下一篇哪种异常值检测方法？为什么？