CRF 是否适用于多词命名实体识别?

数据挖掘 scikit-学习 nlp 命名实体识别
2022-02-21 22:37:03

我有一个问题,我应该使用sklearn CRF创建自定义 NER 。在官方教程中,他们使用的是 NLTK 中可用的 CoNLL2002 语料库,其中实体用一个单词表示,但在我的问题中,一个实体可以用多个单词组成,例如:美国、迈阿密电影院等。

CRF可以处理这个吗?

1个回答

绝对地。如果您查看培训教程,这意味着这根本不是问题。使用多词实体时,通常需要使用IOB或 BILUO 标记方案,这有助于更好地训练模型。

但从数学的角度来看,CRF 没有任何限制,因为 CRF 对特定序列/转换的可能性进行建模。通常,如果您事先知道它们是不可能的,人们就会为特定的过渡设置限制。但默认情况下,所有转换都是允许的。在 sklearn-crf 中,允许所有转换是通过使用all_possible_transitions=True参数来完成的。