注释 NER 数据集

数据挖掘 伯特 命名实体识别 注解
2022-02-14 23:44:47

我正在为命名实体识别而对数据集进行注释。

原则上,我已经看到对于多短语(不是单个单词)元素,注释的工作方式如下(参见下面的示例):

  1. 罗马尼亚 ( B-CNT)
  2. 美利坚合众国 ( B-CNT C-CNT C-CNT C-CNT)

其中B-CNT代表“开始国家”并C-CNT代表“继续国家”。

我面临的问题是我有一个案例(与国家无关)我需要像B-W GAP_WORD C-W C-W.

在这种情况下,我应该如何进行注释?

如果我在上面的模式中进行注释,我是否应该期望一个BERT相似的实体识别系统来学习和检测一个短语可以是 like B-W GAP_WORD C-W C-W,或者我是否需要那个“CW”(继续词)正好在 BW 之后(开始单词)?

以下2个解决方案是正确的:

  1. B-W GAP_WORD C-W C-W
  2. B-W GAP_WORD B-W C-W

然后,在情况 2 中,想办法在 B-W 之间建立联系(实际上对应的是同一个实体)?

1个回答

据我所知,这个问题没有完美的答案。

我同意你的分析,这两个选项是有道理的:

  • 第一个选项在理论上对应于正确的标签,从某种意义上说,它正是在这种情况下想要的:实体的单词不会(必然)连续出现。
  • 第二个选项通过分离实体的两个部分使 NER 系统更容易。这可能会在实践中带来更好的结果,因为 NER 系统经常使用 B 标签出错。

如果可能的话,我建议尝试这两个选项。在注释阶段,这意味着用特殊的临时标签标记这些不连续的网元,例如:

B-W GAP_WORD B_OR_C-W C-W

通过这种方式,B_OR_C-W可以根据所选选项自动将特殊内容替换为 B 或 C。