命名实体消歧需要多少示例?

数据挖掘 nlp 命名实体识别
2021-10-11 19:35:55

如果我想使用职业和技能本体为简历构建一个命名实体链接系统,我需要多少注释?该本体有大约 20,000 个实体。

作为一个下限,我猜每个实体需要大约 10 个示例,并且可能需要 3 个不同的注释器来标记每个提及,因此大约 600K 注释。那有意义吗?

2个回答

它取决于数据集中的信噪比。执行命名实体消歧的数据量将取决于职业和技能的tf-idf 分数,稀有职业和技能将需要较少的数据来构建性能模型。

例如,那句话“我是一名擅长多任务处理的厨师”。“厨师”是一项职业,“多任务”是一项相关技能。在类似的句子中,“我在做饭时同时处理多项任务。” “厨师”不再是一种职业,“多任务”不再是一项相关技能。然而,“饱和潜水员”这个词比“厨师”少,因此更容易建立一个模型来识别职业并找到相关技能。

注释器的性能更容易衡量。Cohen 的 kappa是判断评价者间信度的常用方法。同样,所需评估者的数量取决于他们对任务的同意。如果任务执行很容易,评估者的数量和每个评估者的项目数可以更少。最好对您的系统进行基准测试,然后确定需要多少数据才能提高基准分数。

从文本自动创建本体的一种方法是TextRank算法。

您可能正在描述命名实体识别(NER) 的变体。您有标记的标签/类别。给定一个语料库(简历),您希望 NER 标记器将标记分类为属于或不属于其中一个标签。

您需要创建标记和标签的真实/“黄金”标签的训练集。由于您只处理名词,因此您可以运行标准的词性 (POS) 标记器,然后只自定义标记名词短语。

最好采取主动学习的方法。主动学习使标记训练集成为整个机器学习管道的一部分,从而大大减少了标注的数量。用于命名实体识别的深度主动学习”是当前的最新技术。

一旦你有了一组标签,你就可以训练 NER 分类器。常见的选项是斯坦福命名实体识别器(NER) 和spaCy NER可以在此处找到 Stanford Core NLP 的详细示例。