数据挖掘 - BERT 中用于 NER 任务的子词标记的标签应该是什么？ - 吾爱随笔录

对于任何 NER 任务，我们都需要一系列单词及其对应的标签。为了从 BERT 中提取这些词的特征，需要将它们标记为子词。

例如，单词'infrequent'（带有标签 B-count）将被标记为['in', '##fr', '##e', '##quent']. 它的标签将如何表示？

根据 BERT论文，“我们使用第一个子标记的表示作为 NER 标签集上标记级分类器的输入”。

所以我假设，对于 subwords ['in', '##fr', '##e', '##quent']，第一个子词的标签要么是['B-count', 'B-count', 'B-count', 'B-count']我们将词标签传播到所有子词的地方。还是应该将['B-count', 'X', 'X', 'X']原始标签留在单词的第一个标记上，然后将标签“X”用于该单词的子词。

任何帮助将不胜感激。