为什么需要分块和 IOB 标签?

数据挖掘 nltk 命名实体识别 nlp
2022-03-07 19:14:37

我刚刚遇到了分块,我无法理解为什么有必要?我知道它用于“命名实体识别”。我有几个问题:

  • 为什么以及如何使用分块?
  • 另外,POS 标签还不够吗?
  • 为什么表示需要三个标签?为什么不只使用“内部”标签和“外部”标签?
1个回答

BIO(L) 标记是 NER 管道的重要部分(但正如您正确指出的那样,不是必需的)。这种拆分背后的主要思想是通过以下方式促进学习。

以英语为例,某些单词(很可能)永远不会结束命名实体,例如形容词,因此模型永远不会将它们标记为命名实体的 L(ast) 部分。这同样适用于 L-标签。

至关重要的是,许多模型,如条件随机场,不仅学习标签本身,还学习转移概率,所以,如果你会得到一些标记为的文本块,那么B_ O_ L_这个序列是不正确的,但是当你学习转换也是如此,模型会发现,如果你得到一个强大的开始和结束,内部部分也应该是一个实体部分。