我有非结构化文件,我必须从中提取信息,例如让买家姓名、卖家姓名、到期日、购买日期等。我曾计划使用 spacy(自定义实体重新殖民化(关注此博客https://medium.com/@ manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6))。但似乎有时买方名称预测为卖方名称,反之亦然,当我传递整个文档内容时,有时也会在单个实体中错误地获得多个预测数据。仅供参考.. 本文档大约有 2-20 页。所以它有很大的内容。
如果我们可以使用任何其他包来获得更高的准确性,有人可以分享吗?如果不是,我需要如何训练模型以提高准确性?提前致谢