数据挖掘 - 注释 NER 数据集 - 吾爱随笔录 - 问答

注释 NER 数据集

数据挖掘伯特命名实体识别注解

2022-02-14 23:44:47

我正在为命名实体识别而对数据集进行注释。

原则上，我已经看到对于多短语（不是单个单词）元素，注释的工作方式如下（参见下面的示例）：

罗马尼亚 ( B-CNT)
美利坚合众国 ( B-CNT C-CNT C-CNT C-CNT)

其中B-CNT代表“开始国家”并C-CNT代表“继续国家”。

我面临的问题是我有一个案例（与国家无关）我需要像B-W GAP_WORD C-W C-W.

在这种情况下，我应该如何进行注释？

如果我在上面的模式中进行注释，我是否应该期望一个BERT相似的实体识别系统来学习和检测一个短语可以是 like B-W GAP_WORD C-W C-W，或者我是否需要那个“CW”（继续词）正好在 BW 之后（开始单词）？

以下2个解决方案是正确的：

B-W GAP_WORD C-W C-W
B-W GAP_WORD B-W C-W

然后，在情况 2 中，想办法在 B-W 之间建立联系（实际上对应的是同一个实体）？

1个回答

据我所知，这个问题没有完美的答案。

我同意你的分析，这两个选项是有道理的：

第一个选项在理论上对应于正确的标签，从某种意义上说，它正是在这种情况下想要的：实体的单词不会（必然）连续出现。
第二个选项通过分离实体的两个部分使 NER 系统更容易。这可能会在实践中带来更好的结果，因为 NER 系统经常使用 B 标签出错。

如果可能的话，我建议尝试这两个选项。在注释阶段，这意味着用特殊的临时标签标记这些不连续的网元，例如：

B-W GAP_WORD B_OR_C-W C-W

通过这种方式，B_OR_C-W可以根据所选选项自动将特殊内容替换为 B 或 C。

其它你可能感兴趣的问题

上一篇如何更快地运行 hdbscan 集群？下一篇如何陈述准确性/不准确性的信心？