如何训练 NER 模型以自由形式提取书籍引用?

数据挖掘 nlp 命名实体识别 斯派西 信息提取
2022-02-11 13:47:26

我正在做一个项目,我希望在我的所有电子书中创建自由格式引用(不是学术风格引用)的图形可视化。例如,大卫福斯特华莱士的文章引用了许多不同作者的其他书籍。为此,我应该能够从我自己的电子书中检测和提取书籍和作者姓名。

我从我的电子书中选择了一些示例,我希望我的 NER 模型将其标记为“书籍”(粗体):

(...) 甚至是在 WH Mallock 的新共和国(...)

柏拉图在《理想》中完美地表达了相同的概念:(...)

我也希望标记作者,但我想这可以使用 Spacy 或其他 NLP 库开箱即用地完成,并带有一些预先训练的 PERSON 标记。

所以,我的问题是关于创建这个 NER 模型的最佳方法。

  • 我可以从我的书中创建大量的训练样本并创建一个新的 NER 模型。(非常耗时)

  • 或者,如果有一个带有 BOOK 或类似 WORK_OF_ART 标签的数据集或公共模型,我可以引导我自己的数据集。

您如何看待这种方法?

1个回答

有趣的任务:)

我认为即使有大量的训练数据,常规的 NER 模型也很难在新书名和作者方面表现良好:

  • 这本书可能包含不是作者的人名。
  • 一般来说,书名很难识别。例如,“共和国”可能与书有关,也可能与书无关,如果模型可以使用的唯一指示是大写字母,则可能会出错。

需要明确的是,我认为它可以在某种程度上起作用,但它可能会产生很多错误。

另一方面,您可以获取书籍数据库,例如从 Wikipedia(可能有更好的资源),您可以通过两种方式使用它:

  1. 通过简单的字符串匹配直接识别文档中的书籍/作者。我想即使资源的覆盖范围不完美,这种方法也很容易捕捉到大多数情况。
  2. 如果上述方法还不够,它会为您提供一些很好的训练数据,您可以从中训练 NER 模型,以便收集数据库中不存在的标题。请注意,由于未知书籍在训练数据中被标记为负数,可能会出现问题,因此理想情况下,您必须手动检查训练数据并注释剩余的案例。