MITIE 如何进行命名实体识别?

数据挖掘 nlp 命名实体识别
2021-09-16 19:09:48

我正在尝试使用 MITIE 从短文本中提取命名实体。我对日期、时间、名称和位置等实体感兴趣。开箱即用,MITIE 仅识别名称、位置和组织。我想训练它来识别日期、时间和其他类别。通过查看 MITIE 目录的结构和 dlib 网站,我推测这是通过 SVM 完成的。这个对吗?

关于向命名实体识别器添加新类别,我有几个问题:

  1. 这可以以增强的方式完成吗?也就是说,给定一个现有的 NER 系统,我可以只添加类别示例并训练它来识别这些示例吗?还是我需要从头开始训练模型?
  2. 如果我确实需要从头开始训练模型,我可以使用什么数据集来做到这一点?
  3. 与添加新示例相关,我是否可以使用在线方法,在需要时为系统提供新示例和类别?
1个回答

在使用了 MITIE 几个星期之后,我觉得我至少有足够的时间来回答我的基本问题:

  1. (和 3.)所有模型都需要从头开始训练 - 没有在线方法可以在模型中添加新样本。这是不幸的,因为 MITIE 至少需要 45 分钟到一个小时才能在大约 20k 上进行训练大小的数据集。
  2. 我使用的数据集是ATISCoNLL 2003DBpedia

我发现 MITIE 就分类准确度而言相当不错,尽管为它准备数据集需要做一些工作。