数据挖掘 - 如何训练 NER 模型以自由形式提取书籍引用？ - 吾爱随笔录 - 问答

如何训练 NER 模型以自由形式提取书籍引用？

数据挖掘 nlp 命名实体识别斯派西信息提取

2022-02-11 13:47:26

我正在做一个项目，我希望在我的所有电子书中创建自由格式引用（不是学术风格引用）的图形可视化。例如，大卫福斯特华莱士的文章引用了许多不同作者的其他书籍。为此，我应该能够从我自己的电子书中检测和提取书籍和作者姓名。

我从我的电子书中选择了一些示例，我希望我的 NER 模型将其标记为“书籍”（粗体）：

(...) 甚至是在 WH Mallock 的新共和国(...)

柏拉图在《理想国》中完美地表达了相同的概念：（...）

我也希望标记作者，但我想这可以使用 Spacy 或其他 NLP 库开箱即用地完成，并带有一些预先训练的 PERSON 标记。

所以，我的问题是关于创建这个 NER 模型的最佳方法。

我可以从我的书中创建大量的训练样本并创建一个新的 NER 模型。（非常耗时）
或者，如果有一个带有 BOOK 或类似 WORK_OF_ART 标签的数据集或公共模型，我可以引导我自己的数据集。

您如何看待这种方法？

1个回答

有趣的任务:)

我认为即使有大量的训练数据，常规的 NER 模型也很难在新书名和作者方面表现良好：

这本书可能包含不是作者的人名。
一般来说，书名很难识别。例如，“共和国”可能与书有关，也可能与书无关，如果模型可以使用的唯一指示是大写字母，则可能会出错。

需要明确的是，我认为它可以在某种程度上起作用，但它可能会产生很多错误。

另一方面，您可以获取书籍数据库，例如从 Wikipedia（可能有更好的资源），您可以通过两种方式使用它：

通过简单的字符串匹配直接识别文档中的书籍/作者。我想即使资源的覆盖范围不完美，这种方法也很容易捕捉到大多数情况。
如果上述方法还不够，它会为您提供一些很好的训练数据，您可以从中训练 NER 模型，以便收集数据库中不存在的标题。请注意，由于未知书籍在训练数据中被标记为负数，可能会出现问题，因此理想情况下，您必须手动检查训练数据并注释剩余的案例。

其它你可能感兴趣的问题

上一篇对于不是 2x2 的列联表，Fisher 精确检验的最佳替代方法是什么？下一篇因果推理VS主动学习？