如何使用 BIO 注释为命名实体识别准备数据?

数据挖掘 机器学习 深度学习 nlp 命名实体识别
2022-02-17 11:13:32

假设这里的任务是为简历提取重要的事实,比如候选人的技能和他的教育等。这里的简历是从 pdf 或 docx 简历中解析的文本。

首先,我将从各种在线网站、工作门户等获取技能和教育数据,获取的数据将是两个文本文件,每个文件中的每一行代表一个技能或大学名称,如下所示,

skills.txt 
___________
c 
python 
java
node js


education.txt 
___________
massachusetts institute of Technology 
harvard university 

我想知道这些是否足以训练命名实体识别模型来识别原始简历文本的技能和教育。我拥有的数据不是句子,而只是实体。我在某处读到我们需要一些上下文以及 NER 模型的实体才能更好地学习。就像下面这个例子,

skills.txt 
___________
c is used at facebook
python is my favorite programming language

如果我使用我收集的数据 education.txt 来训练模型并 BIO 对它们进行注释,那么它将如下所示,它不会有 O-Other 令牌。

massachusetts B-EDU
institute I-EDU
of I-EDU
Technology I-EDU

harvard B-EDU
university I-EDU

indian B-EDU
institute I-EDU
of I-EDU
technology I-EDU

但我不知道如何为我的简历提取问题访问这些数据。我该如何进一步进行?如何为我的简历事实识别领域特定任务构建有效的 NER 模型?任何输入/建议都会有帮助。

1个回答

如果您的数据总是这样,则几乎没有理由使用序列标记:每个标记都属于一个实体,因此只需正确分离实体并对其进行分类即可。但由于实体已经用换行符分隔,因此无需训练模型来分隔它们。所以最后你只需要按类别对实体进行分类,这不需要序列标签。但即便如此,从您的示例来看,技能与教育实体似乎已经分开,所以最后我不确定您希望模型学习什么?