我正在为命名实体识别而对数据集进行注释。
原则上,我已经看到对于多短语(不是单个单词)元素,注释的工作方式如下(参见下面的示例):
- 罗马尼亚 (
B-CNT
) - 美利坚合众国 (
B-CNT C-CNT C-CNT C-CNT
)
其中B-CNT
代表“开始国家”并C-CNT
代表“继续国家”。
我面临的问题是我有一个案例(与国家无关)我需要像B-W GAP_WORD C-W C-W
.
在这种情况下,我应该如何进行注释?
如果我在上面的模式中进行注释,我是否应该期望一个BERT
相似的实体识别系统来学习和检测一个短语可以是 like B-W GAP_WORD C-W C-W
,或者我是否需要那个“CW”(继续词)正好在 BW 之后(开始单词)?
以下2个解决方案是正确的:
B-W GAP_WORD C-W C-W
B-W GAP_WORD B-W C-W
然后,在情况 2 中,想办法在 B-W 之间建立联系(实际上对应的是同一个实体)?