我正在做一个项目,我希望在我的所有电子书中创建自由格式引用(不是学术风格引用)的图形可视化。例如,大卫福斯特华莱士的文章引用了许多不同作者的其他书籍。为此,我应该能够从我自己的电子书中检测和提取书籍和作者姓名。
我从我的电子书中选择了一些示例,我希望我的 NER 模型将其标记为“书籍”(粗体):
(...) 甚至是在 WH Mallock 的新共和国(...)
柏拉图在《理想国》中完美地表达了相同的概念:(...)
我也希望标记作者,但我想这可以使用 Spacy 或其他 NLP 库开箱即用地完成,并带有一些预先训练的 PERSON 标记。
所以,我的问题是关于创建这个 NER 模型的最佳方法。
我可以从我的书中创建大量的训练样本并创建一个新的 NER 模型。(非常耗时)
或者,如果有一个带有 BOOK 或类似 WORK_OF_ART 标签的数据集或公共模型,我可以引导我自己的数据集。
您如何看待这种方法?