我正在尝试使用 MITIE 从短文本中提取命名实体。我对日期、时间、名称和位置等实体感兴趣。开箱即用,MITIE 仅识别名称、位置和组织。我想训练它来识别日期、时间和其他类别。通过查看 MITIE 目录的结构和 dlib 网站,我推测这是通过 SVM 完成的。这个对吗?
关于向命名实体识别器添加新类别,我有几个问题:
- 这可以以增强的方式完成吗?也就是说,给定一个现有的 NER 系统,我可以只添加类别示例并训练它来识别这些示例吗?还是我需要从头开始训练模型?
- 如果我确实需要从头开始训练模型,我可以使用什么数据集来做到这一点?
- 与添加新示例相关,我是否可以使用在线方法,在需要时为系统提供新示例和类别?