数据挖掘 - 如何使用 BIO 注释为命名实体识别准备数据？ - 吾爱随笔录

假设这里的任务是为简历提取重要的事实，比如候选人的技能和他的教育等。这里的简历是从 pdf 或 docx 简历中解析的文本。

首先，我将从各种在线网站、工作门户等获取技能和教育数据，获取的数据将是两个文本文件，每个文件中的每一行代表一个技能或大学名称，如下所示，

skills.txt 
___________
c 
python 
java
node js


education.txt 
___________
massachusetts institute of Technology 
harvard university

我想知道这些是否足以训练命名实体识别模型来识别原始简历文本的技能和教育。我拥有的数据不是句子，而只是实体。我在某处读到我们需要一些上下文以及 NER 模型的实体才能更好地学习。就像下面这个例子，

skills.txt 
___________
c is used at facebook
python is my favorite programming language

如果我使用我收集的数据 education.txt 来训练模型并 BIO 对它们进行注释，那么它将如下所示，它不会有 O-Other 令牌。

massachusetts B-EDU
institute I-EDU
of I-EDU
Technology I-EDU

harvard B-EDU
university I-EDU

indian B-EDU
institute I-EDU
of I-EDU
technology I-EDU

但我不知道如何为我的简历提取问题访问这些数据。我该如何进一步进行？如何为我的简历事实识别领域特定任务构建有效的 NER 模型？任何输入/建议都会有帮助。